跳至主要内容

Amazon EC2

通过 AWS Neuron 开始使用 Trn2 实例

高性能 EC2 计算,用于进行生成式人工智能训练和推理

为何选择 Amazon EC2 Trn2 实例和 UltraServers?

Amazon EC2 Trn2 实例由 16 个 AWS Trainium2 芯片提供支持,专为生成式人工智能而构建,同时提供高性能 EC2 实例,用于训练和部署具有数千亿乃至数万亿参数的模型。与基于 GPU 的 EC2 P5e 和 P5en 实例相比,Trn2 实例的性价比要高出 30% 到 40%。借助 Trn2 实例,您可以获得先进的训练和推理性能,同时降低成本,从而缩短训练时间,加快迭代速度,以及提供基于人工智能的实时体验。您可以使用 Trn2 实例训练和部署模型,包括大语言模型(LLM)、多模态模型和扩散转换器,以构建下一代生成式人工智能应用程序。

为缩短训练时间,并为要求最严苛、最先进的模型提供突破性的响应时间(每分词延迟),您可能需要比单个实例所能提供的更多计算和内存。Trn2 UltraServers 使用 NeuronLink(我们专有的芯片间互连技术)连接四个 Trn2 实例中的 64 个 Trainium2 芯片,将单个节点的计算、内存和网络带宽提高四倍,同时在 AWS 上为深度学习和生成式人工智能工作负载提供突破性的性能。在推理方面,UltraServers 有助于提供业界领先的响应速度,打造最佳的实时体验。在训练方面,UltraServers 以比独立实例更快的速度并行运行模型集体通信,从而提高模型训练速度和效率。

Trn2 实例和 Trn2 UltraServers 原生支持 PyTorch 和 JAX 等常用的机器学习(ML)框架,您可以轻松上手。

“Trn2 UltraServers 目前可用于最苛刻的生成式人工智能工作负载。”

优势

Trn2 实例可帮助您缩短训练时间,并为最终用户提供实时推理体验。Trn2 实例采用 16 个 Trainium2 芯片,这些芯片使用我们专有的芯片间互连技术 NeuronLink 进行互连,以提供高达每秒 20.8 FP8 千亿次浮点运算的计算。Trn2 实例总共可提供 1.5 TB 的 HBM3,每秒 46 TB(TBps)的内存带宽,以及每秒 3.2 TB(Tbps)网络连接的 Elastic Fabric Adapter 网络连接(EFAv3)。Trn2 UltraServers(现已提供预览版)拥有 64 个使用 NeuronLink 进行连接的 Trainium2 芯片,可提供高达每秒 83.2 千万亿次的 FP8 计算、6 TB 的总高带宽内存、每秒 185 TBps 的总内存带宽以及 12.8 Tbps 的 EFAv3 网络连接。

为实现高效的分布式训练,Trn2 实例提供 3.2 Tbps 的 EFAv3 网络连接,Trn2 UltraServers 提供 12.8 Tbps 的 EFAv3 网络连接。EFA 基于 AWS Nitro System 构建,这意味着通过 EFA 进行的所有通信在传输过程中都会经过加密,不会造成任何性能损失。EFA 还采用先进的流量路由和拥塞控制协议,使其能够可靠地扩展到数十万个 Trainium2 芯片。Trn2 实例和 UltraServers 正在 EC2 UltraClusters 中部署,以在单个 PB 级无阻塞网络上通过数以万计的 Trainium 芯片实现横向扩展分布式训练。

与基于 GPU 的 EC2 P5e 和 P5en 实例相比,Trn2 实例的性价比要高出 30% 到 40%

Trn2 实例的能效比 Trn1 实例高 3 倍。这些实例和底层芯片使用先进的硅芯片工艺以及硬件和软件优化,在大规模运行生成式人工智能工作负载的同时提供高能效。

AWS Neuron SDK 有助于通过 Trn2 实例和 UltraServers 提取全部性能。Neuron 与 JAX、PyTorch 以及 Hugging Face、PyTorch Lightning 等基本库原生集成。Neuron 专为人工智能研究人员和探索者打造,旨在释放突破性性能。通过原生 PyTorch 集成,无需更改任何代码即可进行训练和部署。对于人工智能性能工程师,我们已提供对 Trainium 2 的更深入访问权限,助您微调性能、自定义内核,并进一步推动模型。使用 Neuron,您可以在 Amazon SageMaker、Amazon EKS、Amazon ECS、AWS ParallelCluster 和 AWS Batch 等服务以及 Ray(Anyscale)、Domino Data Lab 和 Datadog 等第三方服务中使用 Trn2 实例。由于创新需要开放的环境才能蓬勃发展,Neuron 致力于通过开源和与广泛人工智能社区的开放合作推动创新。

功能

Trn2 实例采用 16 个 Trainium2 芯片,这些芯片使用 NeuronLink 进行连接,以提供高达每秒 20.8 千亿次浮点运算的 FP8 计算能力。Trn2 UltraServers 将 NeuronLink 连接扩展到四个 Trn2 实例上的 64 个 Trainium2 芯片,以提供高达每秒 83.2 千亿次浮点运算的 FP8 计算能力。

Trn2 实例提供 1.5 TB 的加速器内存和 46 TBps 的总内存带宽。Trn2 UltraServers 提供 6 TB 的共享加速器内存和 185 TBps 的总内存带宽,以便容纳超大型基础模型。

为支持超大型基础模型的扩展分布式训练,Trn2 实例提供 3.2 Tbps 的 EFAv3 网络带宽,Trn2 UltraServers 提供 12.8 Tbps 的 EFAv3 网络带宽。当与 EC2 UltraClusters 结合使用时,EFAv3 可提供比 EFAv2 更低的网络延迟。每个 Trn2 实例支持高达 8 TB 的本地 NVMe 存储,每个 Trn2 UltraServer 支持高达 32 TB 的本地 NVMe 存储,以便加快访问大型数据集。

Trn2 实例和 UltraServers 支持 FP32、TF32、BF16、FP16 和可配置的 FP8(cFP8)数据类型。其还支持先进的人工智能优化,包括 4 倍稀疏性(16:4)、随机舍入和专用集体引擎。Neuron Kernel 接口(NKI)使用基于 Python 的环境和类似于 Triton 的界面,可直接访问指令集架构(ISA),让您能够创新性能优于现有技术的新模型架构和高度优化的计算内核。

Neuron 支持 Hugging Face 模型中心的 10 万多个模型,用于在 Trn2 上进行训练和部署,包括 Llama 和 Stable Diffusion 等常用模型架构。Neuron 与 JAX、PyTorch 以及 NeMo、Hugging Face、PyTorch Lightning、Ray、Domino Data Lab 和 Data Dog 等基本工具、框架和库原生集成。其可为分布式训练和推理优化开箱即用的模型,同时为分析和调试提供深入的见解。Neuron 还与 Amazon SageMaker、Amazon EKS、Amazon ECS、AWS ParallelCluster 和 AWS Batch 等服务集成。

客户和合作伙伴评价

以下是客户和合作伙伴如何计划使用 Amazon EC2 Trn2 实例实现业务目标的一些示例。

Anthropic

Anthropic 每天都有数百万人依靠 Claude 完成工作。我们宣布与 AWS 合作取得两项重大进展:首先是 Claude 3.5 Haiku 的新“延迟优化模式”,通过 Amazon Bedrock 在 Trainium2 上运行时速度提升 60%。其次是 Rainier 项目,这是由数十万个 Trainium2 芯片组成的新集群,可提供数百个百亿亿次运算,其规模是我们以前集群规模的五倍多。Rainier 项目将帮助推动我们的研究和下一代规模扩展。对于我们的客户而言,这意味着更智能、更低价和更快速。我们不仅要构建更快的人工智能,还要构建可扩展的可信赖人工智能。

Anthropic 首席计算官 Tom Brown
Missing alt text value

Databricks

借助 Databricks 的 Mosaic AI,组织能够构建和部署高质量的代理系统。它原生建立在数据湖仓之上,让客户能够轻松安全地使用企业数据自定义模型,并提供更准确且特定于领域的输出。得益于 Trainium 的高性能和经济高效,客户能够以低成本在 Mosaic AI 上扩展模型训练。随着全球所有客户群对 Mosaic AI 的需求不断扩大,Trainium2 的可用性将为 Databricks 及其客户带来重大益处。Databricks 是全球最大的数据和人工智能公司之一,其计划使用 TRN2 为其客户交付更好的结果,并将总拥有成本降低多达 30%。

Databricks 生成式人工智能副总裁 Naveen Rao
Missing alt text value

poolside

在 poolside,我们将建立由人工智能推动大多数具有经济价值的工作和科学进步的世界。我们相信,软件开发将是神经网络中第一个达到人类级智能的主要能力,因为在这个领域,我们可以完美结合搜索和学习方法。为实现这一点,我们正在构建基础模型、API 和助手,助力开发人员手动(或通过键盘)释放生成式人工智能的强大力量。启用这项技术的主要关键是我们用于构建和运行产品的基础设施。借助 AWS Trainium2,我们的客户将能够以与其他人工智能加速器不同的性价比扩展 poolside 的使用。此外,我们计划使用 Trainium2 UltraServers 训练未来模型,与 EC2 P5 实例相比,预计可节省 40% 的成本。

poolside 首席技术官兼联合创始人 Eiso Kant
The Poolside logo featuring a stylized circular icon and the word 'poolside' in a modern blue font on a transparent background.

Itaú Unibanco

Itaú Unibanco 的目标是改善人与金钱的关系,对人们的生活产生积极影响,同时扩大转型机会。Itaú Unibanco 相信每位客户都是独一无二的,我们力争通过直观的数字化旅程满足客户的需求,利用人工智能的强大力量不断适应消费者习惯。

我们已在各种任务中测试过 AWS Trainium 和 Inferentia,从标准推理到微调应用程序,不一而足。借助这些人工智能芯片的性能,我们得以在研发中实现重要的里程碑。对于批量和在线推理任务,与 GPU 相比,我们的吞吐量提高了 7 倍。性能的提升推动更多使用案例在整个组织中的扩展。最新一代的 Trainium2 芯片为生成式人工智能解锁突破性的功能,为 Itau 的创新开启新篇章。

Itaú Unibanco 数据科学主管 Vitor Azeka
Missing alt text value

NinjaTech AI

Ninja 是一款一体化人工智能代理,可提供无限的生产力:只需一次订阅,即可无限访问全世界优质的人工智能模型以及顶级的人工智能技能,如写作、编码、头脑风暴、图像生成、在线研究。Ninja 是代理平台,提供“SuperAgent”服务,该服务使用代理混合,具有世界一流的准确性,可与前沿基础模型相媲美(在某些类别中甚至更胜一筹)。Ninja 的代理技术需要最高性能的加速器,以提供客户期望的独特实时体验。 

AWS TRN2 的推出让我们兴奋不已,因为我们相信,其将为基于 Llama 3.1 405B 的核心模型 Ninja LLM 提供最佳的单位令牌成本性能以及目前可能的最快速度。Trn2 的低延迟、极具竞争力的价格和按需可用性令人惊叹;我们对 Trn2 的到来感到无比兴奋!

NinjaTech AI 创始人兼首席执行官 Babak Pahlavan
Missing alt text value

Ricoh

RICOH 机器学习团队开发工作场所解决方案和数字化转型服务,旨在管理和优化企业解决方案中的信息流。

迁移到 Trn1 实例简单又快捷。我们利用由 4096 个 Trainium 芯片组成的集群,仅需 8 天时间即可完成 130 亿参数 LLM 的预训练! 在我们的小型模型取得成功后,我们基于 Llama-3-Swallow-70B 对更大的新 LLM 进行微调,与使用 AWS 中最新的 GPU 计算机相比,利用 Trainium 可将训练成本降低 50%,能效提高 25%。我们很高兴能利用最新一代 AWS AI 芯片 Trainium2,继续以最低成本为客户提供最佳性能。

Ricoh 数字技术开发中心主任 Yoshiaki Umetsu
Missing alt text value

PyTorch

我最喜欢 AWS Neuron NxD Inference 库的一点在于其能够与 PyTorch 模型无缝集成。NxD 的方法简单快捷,且对用户友好。我们的团队可在短时间内以最小的代码改动上线 HuggingFace PyTorch 模型。启用连续批处理和推测解码等高级功能非常简单。这种易用性可提高开发人员的工作效率,让团队能够将更多精力放在创新上,减少对集成挑战的关注。

Meta PyTorch 合作伙伴工程主管 Hamid Shojanazeri
Missing alt text value

Refact.ai

Refact.ai 提供全面的人工智能工具,例如由检索增强生成(RAG)驱动的代码自动完成,以提供更准确的建议,以及使用专有和开源模型的上下文感知聊天。

与 EC2 G5 实例相比,客户发现 EC2 Inf2 实例的性能可提高多达 20%,每美元令牌数可提升 1.5 倍。Refact.ai 的微调功能可进一步增强客户了解和适应组织独特代码库和环境的能力。我们也很高兴提供 Trainium2 的功能,这将为我们的工作流程带来更快速、更高效的处理能力。这项先进的技术将帮助我们的客户提高开发人员的工作效率,同时保持代码库的严格安全标准,从而加快软件开发流程。

Refact.ai 首席执行官兼创始人 Oleg Klimov
Missing alt text value

Karakuri Inc.

KARAKURI 构建人工智能工具,以提高基于 Web 的客户支持效率并简化客户体验。这些工具包括配备生成式人工智能功能的人工智能聊天机器人、常见问题解答集中工具和电子邮件回复工具,所有这些都可以提高客户支持的效率和质量。利用 AWS Trainium,我们成功训练了 KARAKURI LM 8x7B Chat v0.1。对我们这样的初创企业而言,我们需要优化构建时间以及训练 LLM 所需的成本。在 AWS Trainium 和 AWS 团队的支持下,我们能够在短时间内开发出实用级 LLM。此外,通过采用 AWS Inferentia,我们得以构建快速且经济高效的推理服务。我们对 Trainium2 充满信心,因为它将彻底改变我们的训练流程,将我们的训练时间缩短 2 倍,并将效率提升到新的高度!

Karakuri Inc 联合创始人 Tomofumi Nakayama
Missing alt text value

Stockmark Inc.

Stockmark 以“重塑价值创造机制,推动人类进步”为使命,通过提供前沿的自然语言处理技术,帮助众多企业创建和打造创新业务。Stockmark 的新数据分析和收集服务 Anews and SAT 是一项数据结构服务,通过组织存储在组织中的各种形式的信息,显著提高生成式人工智能的使用,这要求我们重新思考如何构建和部署模型,以支持这些产品。借助 256 个 Trainium 加速器,我们已经开发并发布 stockmark-13b,这是一个具有 130 亿个参数的大型语言模型,在包含 2200 亿个令牌的日语语料库数据集上从头开始进行预训练。Trn1 实例已帮助我们将训练成本降低 20%。利用 Trainium,我们已经成功开发出一款 LLM,能够以前所未有的准确性和速度为专业人士解答关键业务问题。鉴于各公司在确保模型开发所需的充足计算资源方面普遍面临挑战,这一成就尤其值得一提。在见识过 Trn1 实例的惊人速度和成本降低后,我们很期待看到 Trainium2 将为我们的工作流程和客户带来的更多益处。

Stockmark Inc. 首席技术官兼联合创始人 Kosuke Arima
Missing alt text value

开始使用

SageMaker 即将推出对 Trn2 实例的支持。Amazon SageMaker HyperPod 提供弹性计算集群、优化的训练性能以及底层计算、联网和内存资源的高效利用,因此您可以通过使用 Amazon SageMaker HyperPod 在 Trn2 实例上轻松训练模型。您还可以使用 SageMaker 在 Trn2 实例上扩展模型部署,以便在生产中更有效地管理模型,减轻运营负担。

AWS Deep Learning AMI(DLAMI)可以为深度学习(DL)从业人员和研究人员提供基础设施和各种工具,从而加快在 AWS 上进行任意规模的深度学习的速度。AWS Neuron 驱动程序已在 DLAMI 中预先配置,可在 Trn2 实例上以最佳方式训练您的深度学习模型。

Deep Learning Containers 即将推出对 Trn2 实例的支持。使用这些容器,您现在可以在完全托管的 Kubernetes 服务 Amazon Elastic Kubernetes Service(Amazon EKS)和完全托管的容器编排服务 Amazon Elastic Container Service(Amazon ECS)中部署 Trn2 实例。AWS Deep Learning Containers 中还预装了 Neuron。要了解有关在 Trn2 实例上运行容器的更多信息,请参阅 Neuron 容器教程

产品详细信息

Instance Size
Available in EC2 UltraServers
Trainium2 chips
Accelerator memory
vCPUs
Memory (TB)
Instance storage (TB)
Network bandwidth (Tbps)
EBS bandwidth (Gbps)
Trn2.3xlarge

1

96GB

12

128GB

1 个 470GB NVMe SSD

200

5

trn2.48xlarge
16
1.5 TB
192
2 TB
4 x 1.92 NVMe SSD
3.2
80
trn2u.48xlarge

16
1.5 TB
192
2 TB
4 x 1.92 NVMe SSD
3.2
80