AWS Inferentia 客户
了解客户如何使用 AWS Inferentia 部署深度学习模型。
NetoAI
NetoAI 提供 TelcoCore 套件(包括 TSLAM、ViNG、DigiTwin 和 NAPI),以帮助电信运营商实现其复杂多域运营和客户生命周期管理的自动化。其中的基石是我们的 TSLAM LLM,这是该领域内第一个开源、以行动为导向的模型。为构建该模型,我们需要对庞大的 20 亿令牌专有数据集进行模型微调,并且通过将 Amazon SageMaker 与 AWS Trainium trn1 实例结合使用,我们实现显著的成本节约,并在不到三天的时间内完成整个微调过程。对于生产环境,AWS Inferentia2 和 Neuron SDK 为我们提供介于 300-600 毫秒之间的一致低推理延迟,。这种基于 AWS 专用 AI 芯片的端到端解决方案对于我们达成向整个电信行业提供专业、高性能人工智能的使命至关重要。
Ravi Kumar Palepu 创始人兼首席执行官
SplashMusic
为 HummingLM 训练大型音频到音频模型既需要大量的计算和繁重的迭代。通过将我们的训练工作负载迁移到 AWS Trainium 并使用 Amazon SageMaker HyperPod 进行编排,我们在保持模型准确性的同时实现训练成本降低 54%,训练周期加快 50%。我们还利用 Amazon FSx for Lustre,在短短一周内将超过 2 PB 的数据迁移到 Amazon S3,实现对训练数据和检查点的高吞吐量、低延迟访问。借助 AWS Inferentia2 支持的 Inf2 实例,我们的推理延迟最多可以降低 10 倍,从而实现更快速、响应更灵敏的实时音乐生成。
Tomofun
总部位于台湾的宠物科技初创企业 Tomofun 是 Furbo Pet Camera 的制造商,正在重新定义宠物主人如何远程与宠物互动。Furbo 将智能摄像头与人工智能技术相结合,能够检测吠叫、奔跑或异常活动等行为,并实时向主人发出警报。挑战是双重的:Tomofun 需要在数千台设备上持续进行宠物行为监测的同时保持成本效益,还要在不重写 BLIP 代码库(该代码库已针对 PyTorch 进行了优化)的大部分内容的情况下保持模型的保真度和吞吐量。通过将 BLIP 推理迁移到 Amazon EC2 Inf2 实例,Tomofun 将其部署成本降低了 83%。