AWS 并行计算服务支持 P6e-GB200 和 P6e-GB300 UltraServer
AWS 并行计算服务(PCS)现在支持 Amazon EC2 P6e-GB200 和 P6e-GB300 UltraServer 实例,使客户能够在 Slurm 管理的集群中使用 NVIDIA Blackwell 架构运行大规模 GPU 工作负载。您可以通过 EC2 容量块为机器学习预留 UltraServer,利用 EC2 启动模板将其与 PCS 计算节点组关联,PCS 会自动使用正确的拓扑插件配置 Slurm。
借助 P6e-GB200 UltraServer,您可以在一个 NVLink 域内访问多达 72 个 NVIDIA Blackwell GPU,从而利用 360 千万亿次浮点运算的 FP8 计算能力(无稀疏性)和 13.4 TB 的总高带宽内存(HBM3e)。与 P6e-GB200 相比,P6e-GB300 UltraServer 提供 1.5 倍的 GPU 内存和 1.5 倍的 FP4 计算能力(无稀疏性)。
AWS PCS 是一项托管服务,可简化在 AWS 上使用 Slurm 运行和扩展 HPC 工作负载的过程。您可以构建集计算、存储、联网和可视化工具于一体的完整弹性环境,同时该服务通过托管更新和内置的可观测性功能来负责集群运维工作。
您可以在同时提供 PCS 和适用于 UltraServer 的 EC2 容量块的所有 AWS 区域通过 PCS 使用 P6e UltraServer。要了解有关 P6e UltraServer 的更多信息,请访问 Amazon EC2 P6 实例。要预留 P6e UltraServer,请联系您的 AWS 销售代表。查看 PCS 用户指南,了解有关 PCS 对 P6e UltraServer 的支持的更多信息,并确保设置正确的权限。