亚马逊AWS官方博客

Amazon EC2 P6e-GB200 UltraServers 正式发布,由 NVIDIA Grace Blackwell GPU 提供支持

近日,Amazon Elastic Compute Cloud(Amazon EC2)P6e-GB200 UltraServers 正式发布。该服务器由 NVIDIA GB200 NVL72 加速,可为 AI 训练和推理提供卓越的 GPU 性能。Amazon EC2 UltraServers 通过专用、高带宽、低延迟的加速器互连技术来连接多个 EC2 实例。

NVIDIA Grace Blackwell 超级芯片采用 NVIDIA NVLink-C2C 互连技术,将两个高性能 NVIDIA Blackwell 张量核心 GPU 与基于 Arm 架构的 NVIDIA Grace CPU 连接。每个 Grace Blackwell 超级芯片均可提供 10 千亿次浮点运算的 FP8 计算能力(不考虑稀疏性)和高达 372 GB 的 HBM3e 内存。借助该超级芯片架构,GPU 与 CPU 共处一个计算模块内,与当前一代 EC2 P5en 实例相比,GPU 与 CPU 之间的带宽得到显著提升。

通过 EC2 P6e-GB200 UltraServers,您能在一个 NVLink 域内使用多达 72 个 NVIDIA Blackwell GPU,获得 360 千亿次浮点运算的 FP8 计算能力(不考虑稀疏性)以及 13.4TB 的总高带宽内存(HBM3e)。P6e-GB200 UltraServers 由 AWS Nitro System 提供技术支持,部署在 EC2 UltraClusters 中,能够安全可靠地扩展至数万个 GPU。

EC2 P6e-GB200 UltraServers 可提供高达 28.8 Tbps 的 Elastic Fabric Adapter(EFAv4)网络总带宽。EFA 还与 NVIDIA GPUDirect RDMA 相结合,可实现服务器之间低延迟的 GPU 到 GPU 通信,并支持操作系统旁路。

EC2 P6e-GB200 UltraServers 规格

EC2 P6e-GB200 UltraServers 提供 36 至 72 个 GPU(支持 NVLink)的不同配置选择。EC2 P6e-GB200 UltraServers 的规格如下:

UltraServer 类型 GPU
GPU
内存(GB)
vCPU 实例内存
(GiB)
实例存储(TB) EFA 网络总带宽(Gbps) EBS 带宽(Gbps)
u-p6e-gb200x36 36 6660 1296 8640 202.5 14400 540
u-p6e-gb200x72 72 13320 2592 17280 405 28800 1080

P6e-GB200 UltraServers 是适用于大多数计算和内存密集型 AI 工作负载(例如训练和推理前沿模型,包括混合专家模型和推理模型)的理想之选,并且支持万亿参数规模。

您可以构建智能代理式和生成式人工智能应用程序,涵盖问答、代码生成、视频和图像生成、语音识别等多个领域。

P6e-GB200 UltraServers 的实际应用

您可以通过 EC2 Capacity Blocks for ML 在达拉斯本地扩展区使用 EC2 P6e-GB200 UltraServers。达拉斯本地扩展区(us-east-1-dfw-2a)是美国东部(弗吉尼亚州北部)区域的扩展。

要预留 EC2 容量块,请在 Amazon EC2 控制台上选择容量预留。您可以选择购买适用于 ML 的容量块,然后选择总容量,并为 u-p6e-gb200x36u-p6e-gb200x72 UltraServers 指定需要 EC2 容量块的时长。

成功预订容量块后,需要提前付费,并且价格在购买后不会发生变化。这笔款项将在您购买 EC2 容量块后 12 小时内计入您的账户。要了解更多信息,请访问《Amazon EC2 用户指南》中的适用于 ML 的容量块

要在您购买的容量块内运行实例,您可以使用 AWS 管理控制台AWS 命令行界面(AWS CLI)AWS SDK。在软件方面,您可以从 AWS Deep Learning AMI 开始。这些映像预先配置了您可能已经了解和使用的框架和工具,如 PyTorch、JAX 等等。

您还可以将 EC2 P6e-GB200 UltraServers 与各种 AWS 托管服务无缝集成。例如:

  • Amazon SageMaker Hyperpod 提供托管的、具有弹性的基础设施,能自动处理 P6e-GB200 UltraServers 的配置和管理,并在同一 NVLink 域内用预先配置的备用容量替换故障实例,以保持性能稳定。
  • Amazon Elastic Kubernetes Services(Amazon EKS)允许一个托管节点组跨多个 P6e-GB200 UltraServers 作为节点,在 Kubernetes 集群内自动完成其预置和生命周期管理。您可以为 P6e-GB200 UltraServers 使用 EKS 拓扑感知路由,实现分布式工作负载中紧密耦合组件在单个 UltraServer 的 NVLink 连接实例内的优化部署。
  • 适用于 Lustre 的 Amazon FSx 文件系统提供对 P6e-GB200 UltraServers 的数据访问权限,其吞吐量高达数百 GB/s,每秒进行读写操作的次数(IOPS)达数百万次,能满足大规模高性能计算和 AI 工作负载的需求。要快速访问大型数据集,您可以使用高达 405TB 的本地 NVMe SSD 存储,也可以通过 Amazon Simple Storage Service(Amazon S3)使用几乎无限、经济高效的存储。

现已推出

Amazon EC2 P6e-GB200 UltraServers 现已通过适用于 ML 的 EC2 容量块在达拉斯本地扩展区(us-east-1-dfw-2a)推出。有关更多信息,请访问 Amazon EC2 定价页面

Amazon EC2 控制台中试用 Amazon EC2 P6e-GB200 UltraServers。要了解更多信息,请访问 Amazon EC2 P6e 实例页面,并通过 AWS re:Post for EC2 或您常用的 AWS Support 联系方式发送反馈。

Channy


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。