为什么选择 Amazon EC2 UltraClusters?
Amazon Elastic Compute Cloud (Amazon EC2) UltraCluster 可以帮助您扩展到数千个 GPU 或专门构建的 ML AI 芯片(如 AWS Trainium),以按需访问超级计算机。它们通过简单的即用即付使用模式,使更多的机器学习 (ML)、生成式人工智能和高性能计算 (HPC) 开发人员能够获得超级计算级性能,无需任何设置或维护成本。部署在 EC2 UltraClusters 中的 Amazon EC2 实例包括 P6-B200、P5en、P5e、P5、P4d、Trn2 和 Trn1 实例。
EC2 UltraCluster 由数千个加速 EC2 实例组成,这些实例都位于给定的 AWS 可用区内,并在 PB 级无阻塞网络中使用 Elastic Fabric Adapter(EFA)网络进行互连。EC2 UltraCluster 还提供对适用于 Lustre 的 Amazon FSx 的访问,这是一种完全托管的共享存储,建立在最受欢迎的高性能并行文件系统上,可按需大规模快速处理海量数据集,延迟为亚毫秒。EC2 UltraCluster 为分布式 ML 训练和紧密耦合的 HPC 工作负载提供横向扩展功能。
优势
功能
高性能网络
EC2 UltraCluster 中部署的 EC2 实例与 EFA 网络互连,以提高分布式训练工作负载和紧密耦合的 HPC 工作负载的性能。P6-B200 实例可提供高达每秒 3.2 TB 的 EFAv4 网络速度。Trn2 UltraServers 的 EFAv3 网络速度为每秒 12.8 TB。P5en、P5e、P5 和 Trn2 实例可提供高达 3200 Gbps 的网络带宽;Trn1 实例可提供高达 1600 Gbps 的网络带宽;P4d 实例可提供高达 400 Gbps 的 EFA 网络带宽。EFA 还与 NVIDIA GPUDirect 远程直接内存访问(RDMA)(P6-B200、P5en、P5e、P5、P4d)和 NeuronLink(Trn2、Trn1)相结合,实现了绕过操作系统的服务器之间的低延迟加速器到加速器通信。
高性能存储
EC2 UltraCluster 使用 FSx for Lustre,这是一种基于最流行的高性能并行文件系统构建的完全托管式共享存储。通过 FSx for Lustre,您可以按需快速大规模处理海量数据集,并提供亚毫秒级的延迟。FSx for Lustre 的低延迟和高吞吐量特性针对 EC2 UltraCluster 上的 DL、生成式人工智能和 HPC 工作负载进行了优化。FSx for Lustre 可为 EC2 UltraCluster 中的 GPU 和 ML 加速器持续提供数据,从而加速最苛刻的工作负载。这些工作负载包括大型语言模型(LLM)训练、生成式人工智能推理、DL、基因组学和金融风险建模。您还可以通过 Amazon Simple Storage Service (Amazon S3) 获得几乎无限且经济实惠的存储。
支持的实例和 UltraServers
找到今天要查找的内容了吗?
请提供您的意见,以便帮助我们提高网站内容的质量。