- Amazon EC2
- 实例类型
- P4 实例
Amazon EC2 P4 实例
云端机器学习训练和 HPC 应用程序的高性能
为什么选择 Amazon EC2 P4 实例?
Amazon Elastic Compute Cloud(Amazon EC2)P4d 实例为云端机器学习(ML)训练和高性能计算(HPC)应用提供了高性能。P4d 实例由 NVIDIA A100 Tensor Core GPU 提供支持,并提供业界领先的高吞吐量和低延迟网络。这些实例支持 400 Gbps 的实例联网。P4d 实例在训练 ML 模型时可产生多达 60% 的成本节约,包括与上一代的 P3 和 P3dn 实例相比深度学习模型的性能平均提高 2.5 倍。
P4d 实例部署在名为 Amazon EC2 UltraClusters 的集群中,这些集群包括高性能计算、联网和云端存储。每个 EC2 UltraCluster 都是世界上最强大的超级计算机之一,可帮助您运行其最复杂的多节点 ML 训练和分布式 HPC 工作负载。您可以根据 ML 或 HPC 项目的需求,在 EC2 UltraCluster 中轻松地从几个扩展到数千个 NVIDIA A100 GPU。
研究人员、数据科学家和开发人员可以使用 P4d 实例针对自然语言处理、对象检测和分类以及建议引擎等各种使用案例训练 ML 模型。他们还可以使用该实例来运行药物发现、地震分析和财务建模之类的 HPC 应用程序。与本地系统不同,您可以虚拟访问不受限制的计算和存储容量、根据业务需要扩展基础设施,并在几分钟内加速多节点 ML 训练工作或紧密耦合的分布式 HPC 应用程序,而不会产生任何设置或维护成本。
宣布推出新的 Amazon EC2 P4d 实例
优势
使用最新一代 NVIDIA A100 Tensor Core GPU 后,每个 P4d 实例与上一代 P3 实例相比深度学习性能平均提高 2.5 倍。在日常工作中,P4d 实例的 EC2 UltraCluster 可帮助开发人员、数据科学家和研究人员运行其最复杂的 ML 和 HPC 工作负载,无需任何预付费用或长期合约即可获得超算级性能。使用 P4d 实例减少的训练时间能够提高生产效率,帮助开发人员专注于将 ML 智能融入业务应用程序的核心使命。
开发人员可以利用 P4d 实例的 EC2 UltraCluster 无缝地扩大到数千个 GPU 的规模。支持 400 Gbps 实例联网、Elastic Fabric Adapter(EFA)和 GPUDirect RDMA 技术的高吞吐量、低延迟联网,有助于使用扩展/分布式技术快速地训练 ML 模型。EFA 可使用 NVIDIA Collective Communications Library(NCCL)扩展到数千个 GPU,而 GPUDirect RDMA 技术能够在 P4d 实例之间实现低延迟 GPU 至 GPU 通信。
P4d 实例训练 ML 模型的成本与 P3 实例相比降低多达 60%。此外,P4d 实例还可作为竞价型实例购买。竞价型实例利用了未使用的 EC2 实例容量,可以大大降低 EC2 的成本,和按需实例价格相比有高达 90% 的折扣。由于使用 P4d 实例的 ML 训练成本更低,因此可以重新分配预算以在业务应用程序中获得更多 ML 智能。
通过 AWS Deep Learning AMI(DLAMI)和 Amazon Deep Learning 可在几分钟内轻松地部署 P4d 深度学习环境,因为它们包含所需的深度学习框架库和工具。您还可以轻松地向这些镜像添加更多自己的库和工具。P4d 实例支持热门 ML 框架,例如 TensorFlow、PyTorch 和 MXNet。此外,用于 ML、管理和编排的多数 AWS 服务(例如,Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)、AWS Batch 和 AWS ParallelCluster)都支持 P4d 实例。
功能
NVIDIA A100 Tensor Core GPU 大规模地为 ML 和 HPC 带来前所未有的加速效果。NVIDIA A100 的第三代 Tensor Core 可加速各种精密工作负载,同时缩短获得洞察和投放市场所需的时间。每个 A100 GPU 的计算性能达到上一代 V100 GPU 的 2.5 倍以上,配有 40GB HBM2(P4d 实例)或 80GB HBM2e(P4de 实例)高性能 GPU 内存。高性能 GPU 内存尤其适合利用由高精度数据组成的大型数据集进行训练的工作负载。NVIDIA A100 GPU 使用 NVSwitch GPU 互连吞吐量,因此每个 GPU 可以在相同的 600GB/s 双向吞吐量和单跳延迟的情况下与相同实例中的每个其他 GPU 通信。
P4d 实例提供 400 Gbps 联网性能以帮助客户更好地扩展其分布式工作负载,例如利用高吞吐量联网功能在 P4d 实例之间以及在 P4d 实例与 Amazon Simple Storage Service(Amazon S3)和 FSx for Lustre 之类的存储服务之间更高效地进行多节点训练。EFA 是 AWS 为帮助将 ML 和 HPC 应用程序扩展到数千个 GPU 而设计的自定义网络接口。为了进一步减少延迟,EFA 结合 NVIDIA GPUDirect RDMA 以在服务器与操作系统旁路之间实现低延迟 GPU 至 GPU 通信。
使用 FSx for Lustre 访问 PB 级高吞吐量、低延迟存储,或使用 Amazon S3 以 400 Gbps 的速度访问几乎无限的成本效益型存储。对于需要快速访问大数据集的工作负载,每个 P4d 实例还包括 8TB 基于 NVMe 的 SSD 存储,读取吞吐量达到 16 GB/sec。
P4d 实例依托 AWS Nitro System 构建,后者是丰富的构建块集合,可将许多传统虚拟化功能卸载到专用硬件和软件中,以提供高性能、高可用性和高安全性,同时还可降低虚拟化开销。
客户评价
以下是客户和合作伙伴如何利用 Amazon EC2 P4 实例实现业务目标的一些示例。
Toyota Research Institute (TRI)
三重广告
三重广告
GE Healthcare
HEAVY.AI
Zenotech 有限公司
Aon
Rad AI
产品详细信息
|
实例大小
|
vCPU
|
实例内存 (GiB)
|
GPU – A100
|
GPU 内存
|
网络带宽(Gbps)
|
GPUDirect RDMA
|
GPU 对等
|
实例存储 (GB)
|
EBS 带宽(Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p4d.24xlarge
|
96
|
1152
|
8
|
320 GB
HBM2 |
400 ENA 和 EFA
|
是
|
600 GB/s NVSwitch
|
8 个 1000 NVMe SSD
|
19
|
|
p4de.24xlarge
|
96
|
1152
|
8
|
640 GB
HBM2e |
400 ENA 和 EFA
|
是
|
600 GB/s NVSwitch
|
8 个 1000 NVMe SSD
|
19
|
开始使用适用于 ML 的 P4d 实例
亚马逊 SageMaker 是一项完全托管的服务,用于构建、训练和部署机器学习模型。将其与 P4d 实例配合使用,客户可以轻松扩展至数十、数百或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置集群和数据管道。
如果您更愿意通过容器编排服务管理自己的容器化工作负载,则可以使用 Amazon EKS 或 Amazon ECS 部署 P4d 实例。
开始使用适用于 HPC 的 P4d 实例
P4d 实例非常适合用于运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于 GPU 的 HPC 工作负载。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。P4d 实例支持 EFA,使使用消息传递接口(MPI)的 HPC 应用程序能够扩展到数千个 GPU。AWS Batch 和 AWS ParallelCluster 可帮助 HPC 开发人员快速构建和扩展分布式 HPC 应用程序。