- Amazon EC2
- 執行個體類型
- P4 執行個體
Amazon EC2 P4 執行個體
雲端高效能機器學習 (ML) 訓練和 HPC 應用程式
為什麼選擇 Amazon EC2 P4 執行個體?
Amazon Elastic Compute Cloud (Amazon EC2) P4d 執行個體在雲端提供高效能機器學習 (ML) 訓練和高效能運算 (HPC) 應用程式。P4d 執行個體採用 NVIDIA A100 Tensor Core GPU,提供領先業界的高輸送量和低延遲聯網。這些執行個體支援 400 Gbps 的執行個體聯網。P4d 執行個體能使訓練機器學習 (ML) 模型的成本降低高達 60%,包括與上一代 P3 和 P3dn 執行個體相較,深度學習模型的效能平均提高 2.5 倍。
P4d 執行個體部署在稱為 Amazon EC2 UltraClusters 的叢集中,其中包含高效能運算、網路和雲端儲存空間。每個 EC2 UltraCluster 各為世界最強大之一的超級電腦,協助您執行最複雜的多節點機器學習 (ML) 訓練和分散式 HPC 工作負載。您可以根據機器學習 (ML) 或 HPC 專案的需求,將 EC2 UltraClusters 中的 NVIDIA A100 GPU 輕鬆地從數個擴展為數千個。
研究員、資料科學家和開發人員能使用 P4d 執行個體來訓練機器學習 (ML) 模型,運用於各種使用案例,例如自然語言處理、物體偵測和分類,以及推薦引擎。他們還可將其用於執行 HPC 應用程式,例如製藥探索、地震分析和財務模型。與內部部署系統不同,您可以存取幾乎無限的運算與儲存容量、根據商業需要擴展基礎設施,幾分鐘內啟動多節點機器學習 (ML) 訓練任務或緊密耦合的分散式 HPC 應用程式,且毫無設定或維護成本。
宣佈推出全新的 Amazon EC2 P4d 執行個體
優勢
使用最新一代 NVIDIA A100 Tensor Core GPU,與上一代 P3 執行個體相較,每個 P4d 執行個體平均能提升 2.5 倍的 DL 效能。P4d 執行個體的 EC2 UltraClusters 可供取用超級電腦級的效能,而無須投入前期成本或長期承諾,協助每位開發人員、資料科學家和研究員都能執行最複雜的機器學習 (ML) 和 HPC 工作負載。使用 P4d 執行個體所縮短的訓練時間能提升生產力,協助開發人員能專心執行將機器學習 (ML) 智慧建置成為商業應用程式的核心任務。
使用 P4d 執行個體的 EC2 UltraClusters,開發人員能夠無縫擴展至多達數千個 GPU。高輸送量、低延遲的聯網功能,支援 400 Gbps 執行個體聯網、Elastic Fabric Adapter (EFA) 和 GPUDirect RDMA 技術,利用水平擴展/分散式技術,協助迅速地訓練機器學習 (ML) 模型。EFA 使用 NVIDIA Collective Communications Library (NCCL) 擴展為數千個 GPU,並有 GPUDirect RDMA 技術能啟用 P4d 執行個體之間低延遲的 GPU 與 GPU 通訊。
與 P3 執行個體相較,P4d 執行個體訓練機器學習 (ML) 模型的成本能降低多達 60%。此外,P4d 執行個體能作為 Spot 執行個體購買。Spot 執行個體能善用未使用的 EC2 執行個體容量,大幅降低您的 EC2 成本,比隨需價格節省高達 90% 的費用。因使用 P4d 執行個體能將機器學習 (ML) 訓練成本降低,預算可重新分配,以在商業應用程式中建置更多機器學習 (ML) 智慧。
AWS Deep Learning AMI (DLAMI) 與 Deep Learning Containers 因為含有所需的 DL 架構程式庫和工具,可在幾分鐘內更輕鬆地部署 P4d DL 環境。您也可更輕鬆地將本身的程式庫和工具加入至這些映像。P4d 執行個體可支援常用機器學習 (ML) 架構,例如 TensorFlow、PyTorch 和 MXNet。此外,主要 AWS 服務可支援 P4d 執行個體的機器學習 (ML)、管理和協同運作,例如 Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS Batch 和 AWS ParallelCluster。
功能
NVIDIA A100 Tensor Core GPU 可為 ML 和 HPC 提供無人能及的大規模加速。NVIDIA A100 的第三代 Tensor Cores 能加快每一項精準工作負載,加快得到洞察和上市的時間。與上一代 V100 GPU 相較,各個 A100 GPU 提供超過 2.5 倍的運算效能,並附有 40 GB HBM2 (P4d 執行個體) 或 80 GB HBM2e (P4de 執行個體) 的高效能 HBM2 GPU 記憶體。較高 GPU 記憶體特別有利於那些在高解析度資料的大型資料集上訓練的工作負載。NVIDIA A100 GPU 可使用 NVSwitch GPU 的互連輸送量,因此每個 GPU 可以以相同的 600GB/s 雙向輸送量和單躍延遲與同一個執行個體內的每個其他 GPU 通訊。
P4d 執行個體提供 400 Gbps 聯網功能,以 P4d 執行個體之間、和 P4d 執行個體與儲存服務 (例如 Amazon Simple Storage Service (Amazon S3) 和 FSx for Lustre) 之間的的高輸送量聯網,協助客戶更有效地橫向擴展其分散式工作負載 (例如多節點訓練)。EFA 是 AWS 為協助將機器學習 (ML) 和 HPC 應用程式擴展為數千個 GPU 而設計的自訂網路界面。為進一步降低延遲,EFA 與 NVIDIA GPUDirect RDMA 搭配,以 OS 旁路功能達成伺服器之間低延遲的 GPU 與 GPU 通訊。
使用 FSx for Lustre 存取 PB 規模的高輸送量、低延遲儲存空間,或以 Amazon S3 的 400 Gbps 速度存取幾乎無限的經濟實惠儲存空間。對於需要快速存取大型資料集的工作負載,各 P4d 執行個體也包括 8TB 的 NVMe 型 SSD 儲存與每秒 16 GB 的讀取輸送量。
P4d 執行個體建立在 AWS Nitro System 之上,這是一個豐富的建置區塊集合,可將許多傳統的虛擬化功能卸載到專用的硬體和軟體,以提供高效能、高可用性和高安全性,還能降低虛擬化的額外負荷。
客戶見證
以下是客戶和合作夥伴如何透過 Amazon EC2 P4 執行個體實現業務目標的範例。
Toyota Research Institute (TRI)
三個廣告
三個廣告
GE Healthcare
HEAVY.AI
澤諾科技股份有限公司
Aon
Rad AI
產品詳細資訊
|
Instance Size
|
vCPUs
|
Instance Memory (GiB)
|
GPU – A100
|
GPU memory
|
Network Bandwidth (Gbps)
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (GB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p4d.24xlarge
|
96
|
1152
|
8
|
320 GB
HBM2 |
400 ENA 和 EFA
|
是
|
600 GB/s NVSwitch
|
8 x 1000 NVMe SSD
|
19
|
|
p4de.24xlarge
|
96
|
1152
|
8
|
640 GB
HBM2e |
400 ENA 和 EFA
|
是
|
600 GB/s NVSwitch
|
8 x 1000 NVMe SSD
|
19
|
開始使用適用於 ML 的 P4d 執行個體
Amazon SageMaker 是一項完全受管的服務,用於建置、訓練和部署 ML 模型。與 P4d 執行個體搭配使用時,客戶可以輕鬆擴展到數十、數百或數千個 GPU,這樣便能更快速地訓練任何規模的模型,無須擔心設定叢集和資料管道。
DLAMI 為機器學習者和研究人員提供基礎架構和工具,以便在任何規模加速雲端中的 DL。 深度學習容器是預先安裝的 Docker 映像,具有 DL 框架,可讓您輕鬆地快速部署自訂 ML 環境,從頭開始跳過複雜的建置和優化環境的過程。
如果您希望透過容器協調服務管理自己的容器化工作負載,您可以使用 Amazon EKS 或 Amazon ECS 部署 P4d 執行個體。
開始使用適用於 HPC 的 P4d 執行個體
P4d 執行個體是執行工程模擬、運算金融、地震分析、分子建模、基因體、轉譯和其他以 GPU 為基礎的 HPC 工作負載的理想選擇。HPC 應用程式通常需要高速網路效能、快速儲存、大量記憶體、超強運算能力,也可能需要以上所有特點。P4d 執行個體支援 EFA,可讓 HPC 應用程式利用訊息傳遞介面 (MPI) 擴展至數千個 GPU。AWS Batch 和 AWS ParallelCluster 可協助 HPC 開發人員能迅速建置並擴展分散式 HPC 應用程式。