Amazon EC2

Amazon EC2 UltraClusters

大规模运行 HPC 和 ML 应用程序

开始使用 P6e-GB200

开始使用 Trn2

为什么选择 Amazon EC2 UltraClusters？

Amazon Elastic Compute Cloud (Amazon EC2) UltraCluster 可以帮助您扩展到数千个 GPU 或专门构建的 ML AI 芯片（如 AWS Trainium），以按需访问超级计算机。它们通过简单的即用即付使用模式，使更多的机器学习 (ML)、生成式人工智能和高性能计算 (HPC) 开发人员能够获得超级计算级性能，无需任何设置或维护成本。部署在 EC2 UltraClusters 中的 Amazon EC2 实例包括 P6e-GB200、P6-B200、P5en、P5e、P5、P4d、Trn2 和 Trn1 实例。

EC2 UltraCluster 由数千个加速 EC2 实例组成，这些实例都位于给定的 AWS 可用区内，并在 PB 级无阻塞网络中使用 Elastic Fabric Adapter (EFA) 网络进行互连。EC2 UltraClusters 还提供对 Amazon FSx for Lustre 的访问，这是一种完全托管的共享存储，建立在最受欢迎的高性能并行文件系统上，可按需快速处理海量数据集，延迟为亚毫秒。EC2 UltraCluster 为分布式 ML 训练和紧密耦合的 HPC 工作负载提供横向扩展功能。

优势

EC2 UltraCluster 可帮助您将训练时间和制定解决方案的时间从几周缩短到短短几天。这可以帮助您更快地进行迭代，更快地将深度学习 (DL)、生成式人工智能和 HPC 应用程序推向市场。

EC2 UltraCluster 由数千个加速 EC2 实例组成，这些实例都位于给定的 AWS 可用区内，并在 PB 级无阻塞网络中使用 Elastic Fabric Adapter（EFA）网络进行互连。它们让您能够按需访问进行数百亿亿次浮点运算的加速计算能力。

越来越多的 EC2 实例支持 EC2 UltraCluster，使您可以灵活地选择正确的计算选项，以最大限度地提高性能，同时控制工作负载的成本。

功能

高性能网络

EC2 UltraCluster 中部署的 EC2 实例与 EFA 网络互连，以提高分布式训练工作负载和紧密耦合的 HPC 工作负载的性能。P6e-GB200 UltraServers 可提供高达每秒 28.8 太比特的 EFAv4 联网总速度。P6-B200 实例可提供高达每秒 3.2 TB 的 EFAv4 网络速度。Trn2 UltraServers 的 EFAv3 网络速度为每秒 12.8 TB。P5en、P5e、P5 和 Trn2 实例可提供高达 3200 Gbps 的网络带宽；Trn1 实例可提供高达 1600 Gbps 的网络带宽；P4d 实例可提供高达 400 Gbps 的 EFA 网络带宽。EFA 还与 NVIDIA GPUDirect 远程直接内存访问（RDMA）（P6-B200、P5en、P5e、P5、P4d）和 NeuronLink（Trn2、Trn1）相结合，实现了绕过操作系统的服务器之间的低延迟加速器到加速器通信。

高性能存储

EC2 UltraCluster 使用 FSx for Lustre，这是一种基于最流行的高性能并行文件系统构建的完全托管式共享存储。通过 FSx for Lustre，您可以按需快速大规模处理海量数据集，并提供亚毫秒级的延迟。FSx for Lustre 的低延迟和高吞吐量特性针对 EC2 UltraCluster 上的 DL、生成式人工智能和 HPC 工作负载进行了优化。适用于 Lustre 的 FSx 可为 EC2 UltraCluster 中的 GPU 和 AI 芯片持续提供数据，从而加速推进要求最严苛的工作负载。这些工作负载包括大型语言模型（LLM）训练、生成式人工智能推理、DL、基因组学和金融风险建模。您还可以通过 Amazon Simple Storage Service (Amazon S3) 获得几乎无限且经济实惠的存储。

支持的实例和 UltraServers

P6e-GB200 UltraServers

采用 UltraServer 配置的 P6e-GB200 实例由 NVIDIA GB200 NVL72 加速，可提供 Amazon EC2 中最高的 GPU 人工智能训练和推理性能。

了解更多

P6-B200 实例

由 NVIDIA Blackwell GPU 加速的 Amazon EC2 P6-B200 实例可为人工智能训练、推理和 HPC 提供高性能实例。

了解更多

Trn2 实例和 UltraServers

Trn2 实例由 AWS Trainium2 人工智能芯片提供支持，与基于 GPU 的同类实例相比，性价比提升多达 30% 到 40%。

了解更多

P5en、P5e 和 P5 实例

P5en 和 P5e 实例由 NVIDIA H200 Tensor Core GPU 提供支持，可以在 Amazon EC2 中为机器学习训练和 HPC 应用程序提供高性能。P5 实例由 NVIDIA H100 Tensor Core GPU 提供支持。

了解更多

P4d 实例

P4d 实例由 NVIDIA A100 Tensor Core GPU 提供支持，可为 ML 训练和 HPC 应用程序提供高性能。

了解更多

Trn1 实例

Trn1 实例由 AWS Trainium AI 芯片提供支持，专为高性能机器学习训练而构建。与同类 EC2 实例相比，它们可节省高达 50% 的训练成本。

了解更多

开始使用

注册 AWS 账户

立即使用 AWS Free Tier

教程

借助 10 分钟教程了解相关信息

通过简单教程来进行探讨和学习

找到今天要查找的内容了吗？

请提供您的意见，以便我们改进网页内容的质量。

Amazon EC2 UltraClusters

为什么选择 Amazon EC2 UltraClusters？

优势

更快地为分布式训练和 HPC 制定解决方案

按需访问百万兆级超级计算机

灵活地优化性能和成本

功能

高性能网络

高性能存储

支持的实例和 UltraServers

P6e-GB200 UltraServers

P6-B200 实例

Trn2 实例和 UltraServers

P5en、P5e 和 P5 实例

P4d 实例

Trn1 实例

开始使用

注册 AWS 账户

借助 10 分钟教程了解相关信息

找到今天要查找的内容了吗？

了解

资源

开发人员

帮助