为什么选择 Inferentia?
AWS Inferentia 芯片由 AWS 设计,旨在以最低的成本在 Amazon EC2 中为深度学习(DL)和生成式人工智能推理应用程序提供高性能。
第一代 AWS Inferentia 芯片为 Amazon Elastic Compute Cloud(Amazon EC2)Inf1 实例提供支持,与同类 Amazon EC2 实例相比,该实例的吞吐量可提高多达 2.3 倍,每次推理的成本可降低多达 70%。包括 Finch AI、Sprinklr、Money Forward 和 Amazon Alexa 在内的许多客户都已采用 Inf1 实例,并已实现其性能和成本优势。
与 Inferentia 相比,AWS Inferentia2 芯片的吞吐量提高 4 倍,延迟低至前者的 1/10。基于 Inferentia2 的 Amazon EC2 Inf2 实例经过优化,可大规模部署日益复杂的模型,例如大语言模型(LLM)和潜在扩散模型。Inf2 实例是 Amazon EC2 中的首个推理优化实例,可通过芯片之间的超高速连接支持横向扩展分布式推理。包括 Leonardo.ai、德国电信和 Qualtrics 在内的许多客户已在其深度学习和生成式人工智能应用程序中采用 Inf2 实例。
AWS Neuron SDK 可帮助开发人员在两种 AWS Inferentia 芯片上部署模型,然后在 AWS Trainium 芯片上进行训练。 其与 PyTorch 和 TensorFlow 等热门框架原生集成,以便继续使用现有的代码和工作流程,并且在 Inferentia 芯片上运行。
AWS Inferentia 的优势
每个第一代 Inferentia 芯片都已搭载四个第一代 NeuronCore,每个 EC2 Inf1 实例最多有 16 个 Inferentia 芯片。每个 Inferentia2 芯片都已搭载两个第二代 NeuronCore,每个 EC2 Inf2 实例最多有 12 个 Inferentia2 芯片。每个 Inferentia2 芯片支持高达每秒 190 万亿次浮点运算(TFLOPS)的 FP16 性能。第一代 Inferentia 每个芯片都有 8 GB 的 DDR4 内存,并且还具有大容量片上内存。Inferentia2 为每个芯片提供 32 GB 的 HBM,与 Inferentia 相比,总内存增加 4 倍,内存带宽增加 10 倍。
AWS Neuron SDK 与 PyTorch 和 TensorFlow 等常用 ML 框架原生集成。借助 AWS Neuron,可使用这些框架在两种 AWS Inferentia 芯片上以最佳方式部署 DL 模型,并且 Neuron 设计为最大程度减少代码更改以及与特定供应商解决方案的绑定。 Neuron 有助于在 Inferentia 芯片上运行推理应用程序,以实现自然语言处理(NLP)/理解、语言翻译、文本摘要、视频和图像生成、语音识别、个性化、欺诈检测等功能。
第一代 Inferentia 支持 FP16、BF16 和 INT8 数据类型。Inferentia2 添加了对 FP32、TF32 和新的可配置 FP8(cFP8)数据类型的额外支持,为开发人员提供了更大的灵活性,可以优化性能和准确性。AWS Neuron 采用高精度 FP32 模型,并自动将它们转换为精度较低的数据类型,同时优化了准确性和性能。Autocasting 可消除对低精度再培训的需求,以缩短上市时间。
Inferentia2 为动态输入大小和用 C++ 编写的自定义运算符添加了硬件优化。还支持随机舍入,这是一种概率舍入方式,与传统舍入模式相比,其可实现高性能和更高的精度。
与同类的 Amazon EC2 实例相比,Inf2 实例可实现高达 50% 的性能功耗比提升,因为其和底层 Inferentia2 芯片专为大规模运行 DL 模型而构建。Inf2 实例有助于在部署超大型模型时实现可持续发展目标。
Leonardo.ai
我们的 Leonardo 团队利用生成式人工智能,使创意专业人士和爱好者能够制作出具有无与伦比的质量、速度和风格一致性的视觉资产。通过使用 AWS Inferentia2,我们能够在不牺牲性能的情况下将成本降低 80%,从根本上改变我们可以为客户提供的价值主张,从而以更实惠的价格实现我们最先进的功能。它还减轻了人们对辅助人工智能服务的成本和容量可用性的担忧,随着我们的发展和规模扩大,这些服务变得越来越重要。对于我们来说,这是一项关键的支持技术,我们将继续挑战生成式人工智能的极限,为我们的用户开启创造力和表达力的新时代。
Pete Werner,Leonardo.ai 人工智能主管
Qualtrics
Qualtrics 设计和开发体验管理软件。
在 Qualtrics,我们的工作重点是构建技术,以缩小客户、员工、品牌和产品的体验差距。为实现这一目标,我们正在开发复杂的多任务、多模式 DL 模型以推出新功能,例如文本分类、序列标记、话语分析、关键短语提取、主题提取、集群和端到端对话理解。随着我们在更多应用中使用这些更复杂的模型,非结构化数据量不断增长,我们需要更高性能的推理优化优化解决方案(例如 Inf2 实例)来满足这些需求,为我们的客户提供最佳体验。我们对新的 Inf2 实例感到兴奋,因为它不仅可以让我们实现更高的吞吐量,同时显著降低延迟,而且还引入了分布式推理和增强的动态输入形状支持等功能,这将有助于进行扩展,从而在向更大、更复杂的大型模型发展时满足部署需求。
Aaron Colak,Qualtrics 核心机器学习主管
Finch Computing
Finch Computing 是一家自然语言技术公司,为政府、金融服务和数据集成商客户提供人工智能应用程序。
为了满足客户对实时 NLP 的需求,我们开发了可扩展到大型生产工作负载的先进 DL 模型。我们必须提供低延迟事务处理并实现高吞吐量,以处理全球数据馈送。我们已经将许多生产工作负载迁移到 Inf1 实例,并且实现了与 GPU 相比 80% 的成本节约。现在,我们正在开发更大、更复杂的模型,以便从书面文本中获得更深刻、更有洞察力的意义。我们的许多客户需要实时访问这些洞察,Inf2 实例的性能将帮助我们提供比 Inf1 实例更低的延迟和更高的吞吐量。随着 Inf2 性能改进和新的 Inf2 功能,例如支持动态输入大小,我们正在改善我们的成本效率,提升实时客户体验,并帮助我们的客户从他们的数据中收集新的洞察。
Franz Weckesser,Finch Computing 首席架构师
Dataminr
我们以多种语言、不同的格式(图像、视频、音频、文本传感器、所有这些类型的组合)对世界各地成千上万个来源的多种类型的事件发布提醒。考虑到这种规模,优化速度和成本对我们的业务至关重要。借助 AWS Inferentia,我们降低了模型延迟,使每美元吞吐量提高了 9 倍。这使我们能够部署更复杂的 DL 模型,在控制成本的同时,使处理的数据量增加 5 倍,从而提高模型的准确性并增强平台的功能。
Alex Jaimes,Dataminr 首席科学家兼人工智能高级副总裁
Snap Inc.
我们将机器学习融入 Snapchat 的很多方面,在此领域探索创新是重中之重。我们一听说 Inferentia 就开始与 AWS 合作采用 Inf1/Inferentia 实例来帮助我们进行 ML 部署,包括性能和成本方面。我们用自己的推荐模型开始,并期待未来将更多模型用于 Inf1 实例。
Nima Khajehnouri,Snap Inc. 的工程副总裁
Sprinklr
通过 Sprinklr 的 AI 驱动型统一客户体验管理(统一 CXM)平台,公司能够收集多个渠道中的实时客户反馈,并将其转化为可实施的洞察 – 从而形成主动的问题解决方法、增强的产品开发、改进的内容营销、更好的客户体验,等等。使用 Amazon EC2 Inf1,我们能够显著地提高我们的 NLP 模型之一的性能,还能提高我们的计算机视觉模型之一的性能。我们期待继续使用 Amazon EC2 Inf1 更好地为全球客户服务。
Vasant Srinivasan,Sprinklr 产品工程高级副总裁
Autodesk
Autodesk 正在通过使用 Inferentia 来推进我们的人工智能虚拟助手——Autodesk 虚拟代理(AVA)的认知技术。AVA 通过应用自然语言理解(NLU)和 DL 技术来提取查询背后的上下文、意图和意义,每月解答超过 10 万个客户问题。试用 Inferentia 后,对于 NLU 模型,我们能够获得比 G4dn 高 4.9 倍的吞吐量,并期望在基于 Inferentia 的 Inf1 实例上运行更多的工作负载。
Binghui Ouyang,Autodesk 高级数据科学家
Screening Eagle Technologies
探地雷达的使用和视觉缺陷的检测通常是专家测量师的领域。基于 AWS 微服务的架构使我们能够处理自动检查车辆和检查员拍摄的视频。通过将我们的内部构建模型从传统的基于 GPU 的实例迁移到 Inferentia,我们可以将成本降低 50%。此外,当与 G4dn GPU 实例进行时间比较时,我们能够看到性能的提高。我们的团队期待在基于 Inferentia 的 Inf1 实例上运行更多的工作负载。
Jesús Hormigo,Screening Eagle Technologies 首席云和人工智能官
NTT PC Communications Inc.
NTT PC Communications 是日本的网络服务和通信解决方案提供商,在推出信息和通信技术市场创新产品方面,处于电信行业领先地位。
NTT PC 开发了“AnyMotion”,这是一个基于高级姿势估计 ML 模型的运动分析 API 平台服务。我们使用 Amazon ECS 在 Amazon EC2 Inf1 实例上部署了 AnyMotion 平台,以提供完全托管的容器编排服务。通过在 Amazon EC2 Inf1 上部署 AnyMotion 容器,与当前一代基于 GPU 的 EC2 实例相比,我们的吞吐量提高到了原来的 4.5 倍,推理延迟降低了 25%,成本降低了 90%。这些卓越的成果将有助于大规模提高 AnyMotion 服务的质量。
Toshiki Yanagisawa,NTT PC Communications Inc. 软件工程师
Anthem
Anthem 是美国领先的医疗福利公司之一,他们提供的服务能满足数十个州 4000 多万会员的医疗保健需求。
数字健康平台市场正以惊人的速度增长。由于庞大的客户意见数据及其非结构化性质,在这个市场上收集情报是一项具有挑战性的任务。我们的应用程序通过 DL 的自然语言模型(Transformers)自动生成来自客户意见的可操作见解。我们的应用程序属于计算密集型,需要以高性能的方式进行部署。我们无缝地将 DL 推理工作负载部署到由 AWS Inferentia 处理器支持的 Amazon EC2 Inf1 实例。新的 Inf1 实例可为基于 GPU 的实例提供 2 倍吞吐量,使我们能够简化推理工作负载。
Numan Laanait 和 Miro Mihaylov 博士,Anthem 首席人工智能/数据科学家