跳至主要内容

要了解更多信息,请参阅 Amazon EC2 P6e-GB200 UltraServers 和 P6-B200 实例。

用于 AI 训练和推理的最高 GPU 性能

要了解更多信息,请参阅 Amazon EC2 P6e-GB200 UltraServers 和 P6-B200 实例。

亚马逊弹性计算云(亚马逊 EC2)P6e-GB200 UltraServers 由 NVIDIA GB200 NVL72 加速,提供亚马逊 EC2 中最高的 GPU 性能。与 P5en 实例相比,它们在 NVIDIA NVLink TM 下具有超过 20 倍的计算和超过 11 倍的内存。p6e-GB200 UltraServers 非常适合计算和内存密集型人工智能工作负载,例如以万亿参数规模训练和部署前沿模型。

由 NVIDIA Blackwell GPU 加速的 Amazon EC2 P6-B200 实例是大中型训练和推理应用程序的理想选择。与用于 AI 训练和推理的 P5en 实例相比,它们可提供高达 2 倍的性能。

p6e-GB200 UltraServer 和 P6-B200 实例可以加快下一代人工智能模型的训练速度,并提高生产环境中实时推理的性能。您可以使用 P6e-GB200 UltraServers 和 P6-B200 实例训练前沿基础模型 (FM),例如专家和推理模型的混合体,并将其部署到生成式和代理式 AI 应用程序中,例如内容生成、企业副驾驶和深度研究代理。

优势

借助P6e-GB200 UltraServers,客户可以在一个NVLink域内访问多达72个布莱克韦尔显卡,以使用360千万亿次浮点运算的FP8计算(无稀疏性)和13.4 TB的高带宽总内存(HBM3e)。P6e-GB200 UltraServers 在 GPU 之间提供高达每秒 130 太字节的低延迟 NVLink 连接,以及高达 28.8 太比特的总弹性结构适配器网络 (eFav4),用于人工智能训练和推理。这种基于P6e-GB200的UltraServer架构使客户能够利用计算和内存方面的逐步改进,与P5en相比,NVLink下的GPU TFLOPS高达20倍,GPU内存的11倍和总GPU内存带宽的15倍。

P6-B200 实例配备 8 个 NVIDIA Blackwell GPU、1440 GB 高带宽 GPU 内存、第 5 代英特尔至强可扩展处理器(Emerald Rapids)、2 TiB 系统内存,以及 30 TB 本地 NVMe 存储。与 P5en 实例相比,这些实例具有高达 2.25 倍的 GPU TFLOP、1.27 倍的 GPU 内存大小和 1.6 倍的 GPU 内存带宽。

 

P6-B200 实例由 AWS Nitro System 提供支持,该系统配备专用的硬件和固件,旨在实施访问限制,确保包括 AWS 内部人员在内的任何人都无法访问您的敏感人工智能工作负载和数据。处理网络、存储和其他 I/O 功能的 Nitro System 可以在保持运行状态的同时部署固件更新、错误修复和优化。这可以提高稳定性并减少停机时间,对于按时完成培训计划以及在生产环境中运行人工智能应用程序至关重要。

为了实现高效的分布式训练,P6e-GB200 UltraServers 和 P6-B200 实例使用第四代 Elastic Fabric Adapter 网络 (eFav4)。eFav4 使用可扩展的可靠数据报协议智能地将流量路由到多个网络路径上,即使在拥塞或故障期间也能保持平稳运行。

这些实例部署在 Amazon EC2 UltraClusters 中,可在支持 PB 级的非阻塞网络中扩展至数万个 GPU。

功能

每个 NVIDIA Blackwell GPU 均采用第二代变压器引擎,并支持 FP4 等全新精度格式。它支持第五代 NVLink,这是一种更快、更宽的互连,可为每个 GPU 提供高达 1.8 TB/s 的带宽。

Grace Blackwell Superchip 是 P6e-GB200 的关键组件,它使用 NVIDIA NVLink-C2C 互连连接两个高性能 NVIDIA Blackwell GPU 和一个 NVIDIA Grace CPU。每个超级芯片可提供 10 千万亿次浮点运算的 FP8 计算(无稀疏性)和高达 372 GB 的 HBM3e。借助超级芯片架构,2 个 GPU 和 1 个 CPU 位于一个计算模块中,与当前一代 P5en 实例相比,GPU 和 CPU 之间的带宽提高了一个数量级。

P6e-GB200 UltraServer 和 P6-B200 实例为 eFav4 网络提供每个 GPU 每秒 400 GB 的容量,每个 P6e-GB200 UltraServer 的总容量为 28.8 Tbps,每个 P6-B200 实例总共提供 3.2 Tbps。

P6e-GB200 UltraServer 和 P6-B200 实例支持适用于 Lustre 文件系统的亚马逊 FSx,因此您可以以大规模 AI 训练和推理所需的数百千千兆吞吐量和数百万个 IOPS 访问数据。P6e-GB200 UltraServers 支持高达 405 TB 的本地 NVMe 固态硬盘存储,而 P6-B200 实例支持高达 30 TB 的本地 NVMe 固态硬盘存储,用于快速访问大型数据集。您还可以通过 Amazon Simple Storage Service(Amazon S3)使用几乎无限且经济实惠的存储。

产品详细信息

实例类型

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
Instance storage (TB)
Network bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
p6-b200.48xlarge

8

1,440 HBM3e

192

2048

8 x 3.84

8 x 400

100

p6e-gb200.36xlarge

4

1,440 HBM3e

144

960

1 个 75

8 x 400

60

P6e-GB200 实例仅在 UltraServers 中可用

UltraServer 类型

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
UltraServer Storage (TB)
Aggregate EFA bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
u-p6e-gb200x72

72

13320

2529

17280

405

28800

1080

u-p6e-gb200x36

36

6660

1296

8640

202.5

14400

540

客户评价

以下是一些客户和合作伙伴如何使用亚马逊 EC2 P6e-GB200 UltraServers 和 P6-B200 实例实现其业务目标的示例。

JetBrains

我们正在广泛使用亚马逊EC2 P5en实例,并对采用NVIDIA Blackwell GPU的P6和P6e实例的推出感到兴奋,这些实例有望大幅提高性能。开箱即用的初步评估表明,与我们的机器学习管道中基于 H200 的 P5en 实例相比,P6-B200 的训练时间缩短了 85% 以上,进一步的优化预计将带来更大的收益。这一进步将帮助我们为客户打造卓越的产品。

弗拉迪斯拉夫·坦科夫,JetBrains 人工智能总监

Missing alt text value

机器学习使用案例入门

Amazon SageMaker 是一项完全托管的服务,用于构建、训练和部署 ML 模型。借助 Amazon SageMaker HyperPod(P6-B200 支持即将推出),您可以更轻松地扩展至数十、数百或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置和管理弹性训练集群的问题。

AWS Deep Learning AMI(DLAMI)可为机器学习从业人员和研究人员提供基础设施和各种工具,从而加快在云中进行任意规模的深度学习的速度。 AWS Deep Learning Containers 是预先安装了深度学习框架的 Docker 映像,可以让您跳过从头构建和优化环境的复杂流程,从而简化自定义机器学习环境的部署。

如果您更愿意通过容器编排服务管理自己的容器化工作负载,则可以使用 Amazon Elastic Kubernetes Service(Amazon EKS)或 Amazon Elastic Container Service(Amazon ECS)部署 P6-B200 实例。

P6e-GB200 UltraServers也将通过NVIDA DGX Cloud提供,这是一个完全托管的环境,具有NVIDIA完整的人工智能软件堆栈。您将获得 NVIDIA 的最新优化、基准测试配方和技术专业知识。

了解详情