跳至主要內容

Amazon EC2

Amazon EC2 P4 執行個體

雲端高效能機器學習 (ML) 訓練和 HPC 應用程式

為什麼選擇 Amazon EC2 P4 執行個體?

Amazon Elastic Compute Cloud (Amazon EC2) P4d 執行個體在雲端提供高效能機器學習 (ML) 訓練和高效能運算 (HPC) 應用程式。P4d 執行個體採用 NVIDIA A100 Tensor Core GPU,提供領先業界的高輸送量和低延遲聯網。這些執行個體支援 400 Gbps 的執行個體聯網。P4d 執行個體能使訓練機器學習 (ML) 模型的成本降低高達 60%,包括與上一代 P3 和 P3dn 執行個體相較,深度學習模型的效能平均提高 2.5 倍。

P4d 執行個體部署在稱為 Amazon EC2 UltraClusters 的叢集中,其中包含高效能運算、網路和雲端儲存空間。每個 EC2 UltraCluster 各為世界最強大之一的超級電腦,協助您執行最複雜的多節點機器學習 (ML) 訓練和分散式 HPC 工作負載。您可以根據機器學習 (ML) 或 HPC 專案的需求,將 EC2 UltraClusters 中的 NVIDIA A100 GPU 輕鬆地從數個擴展為數千個。

研究員、資料科學家和開發人員能使用 P4d 執行個體來訓練機器學習 (ML) 模型,運用於各種使用案例,例如自然語言處理、物體偵測和分類,以及推薦引擎。他們還可將其用於執行 HPC 應用程式,例如製藥探索、地震分析和財務模型。與內部部署系統不同,您可以存取幾乎無限的運算與儲存容量、根據商業需要擴展基礎設施,幾分鐘內啟動多節點機器學習 (ML) 訓練任務或緊密耦合的分散式 HPC 應用程式,且毫無設定或維護成本。

宣佈推出全新的 Amazon EC2 P4d 執行個體

優勢

    使用最新一代 NVIDIA A100 Tensor Core GPU,與上一代 P3 執行個體相較,每個 P4d 執行個體平均能提升 2.5 倍的 DL 效能。P4d 執行個體的 EC2 UltraClusters 可供取用超級電腦級的效能,而無須投入前期成本或長期承諾,協助每位開發人員、資料科學家和研究員都能執行最複雜的機器學習 (ML) 和 HPC 工作負載。使用 P4d 執行個體所縮短的訓練時間能提升生產力,協助開發人員能專心執行將機器學習 (ML) 智慧建置成為商業應用程式的核心任務。

    使用 P4d 執行個體的 EC2 UltraClusters,開發人員能夠無縫擴展至多達數千個 GPU。高輸送量、低延遲的聯網功能,支援 400 Gbps 執行個體聯網、Elastic Fabric Adapter (EFA) 和 GPUDirect RDMA 技術,利用水平擴展/分散式技術,協助迅速地訓練機器學習 (ML) 模型。EFA 使用 NVIDIA Collective Communications Library (NCCL) 擴展為數千個 GPU,並有 GPUDirect RDMA 技術能啟用 P4d 執行個體之間低延遲的 GPU 與 GPU 通訊。

    與 P3 執行個體相較,P4d 執行個體訓練機器學習 (ML) 模型的成本能降低多達 60%。此外,P4d 執行個體能作為 Spot 執行個體購買。Spot 執行個體能善用未使用的 EC2 執行個體容量,大幅降低您的 EC2 成本,比隨需價格節省高達 90% 的費用。因使用 P4d 執行個體能將機器學習 (ML) 訓練成本降低,預算可重新分配,以在商業應用程式中建置更多機器學習 (ML) 智慧。

    AWS Deep Learning AMI (DLAMI) 與 Deep Learning Containers 因為含有所需的 DL 架構程式庫和工具,可在幾分鐘內更輕鬆地部署 P4d DL 環境。您也可更輕鬆地將本身的程式庫和工具加入至這些映像。P4d 執行個體可支援常用機器學習 (ML) 架構,例如 TensorFlow、PyTorch 和 MXNet。此外,主要 AWS 服務可支援 P4d 執行個體的機器學習 (ML)、管理和協同運作,例如 Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS Batch 和 AWS ParallelCluster。

功能

    NVIDIA A100 Tensor Core GPU 可為 ML 和 HPC 提供無人能及的大規模加速。NVIDIA A100 的第三代 Tensor Cores 能加快每一項精準工作負載,加快得到洞察和上市的時間。與上一代 V100 GPU 相較,各個 A100 GPU 提供超過 2.5 倍的運算效能,並附有 40 GB HBM2 (P4d 執行個體) 或 80 GB HBM2e (P4de 執行個體) 的高效能 HBM2 GPU 記憶體。較高 GPU 記憶體特別有利於那些在高解析度資料的大型資料集上訓練的工作負載。NVIDIA A100 GPU 可使用 NVSwitch GPU 的互連輸送量,因此每個 GPU 可以以相同的 600GB/s 雙向輸送量和單躍延遲與同一個執行個體內的每個其他 GPU 通訊。

    P4d 執行個體提供 400 Gbps 聯網功能,以 P4d 執行個體之間、和 P4d 執行個體與儲存服務 (例如 Amazon Simple Storage Service (Amazon S3) 和 FSx for Lustre) 之間的的高輸送量聯網,協助客戶更有效地橫向擴展其分散式工作負載 (例如多節點訓練)。EFA 是 AWS 為協助將機器學習 (ML) 和 HPC 應用程式擴展為數千個 GPU 而設計的自訂網路界面。為進一步降低延遲,EFA 與 NVIDIA GPUDirect RDMA 搭配,以 OS 旁路功能達成伺服器之間低延遲的 GPU 與 GPU 通訊。

    使用 FSx for Lustre 存取 PB 規模的高輸送量、低延遲儲存空間,或以 Amazon S3 的 400 Gbps 速度存取幾乎無限的經濟實惠儲存空間。對於需要快速存取大型資料集的工作負載,各 P4d 執行個體也包括 8TB 的 NVMe 型 SSD 儲存與每秒 16 GB 的讀取輸送量。

    P4d 執行個體建立在 AWS Nitro System 之上,這是一個豐富的建置區塊集合,可將許多傳統的虛擬化功能卸載到專用的硬體和軟體,以提供高效能、高可用性和高安全性,還能降低虛擬化的額外負荷。

客戶見證

以下是客戶和合作夥伴如何透過 Amazon EC2 P4 執行個體實現業務目標的範例。

Toyota Research Institute (TRI)

 

Toyota Research Institute (TRI) 創立於 2015 年,致力於為 Toyota 開發自動駕駛、機器人和其他人力擴增技術。 
 
「在 TRI,我們正在努力打造一個讓每個人都有自由移動的未來。上一代 P3 執行個體幫助我們將 ML 模型的訓練時間從幾天縮短為數小時,而且我們期待使用 P4d 執行個體,因為額外的 GPU 記憶體和更高效的 float 格式將使我們的機器學習團隊能夠以更快的速度訓練更複雜的模型。「
TRI 基礎設施工程部技術主管 Mike Garrison
Missing alt text value

三個廣告

 

「在 TRI-AD,我們正在努力打造一個讓每個人都有自由行動和探索的未來,專注於使用適應性駕駛和智能城市減少車輛傷亡和死亡。透過使用 Amazon EC2 P4d 執行個體,與上一代 GPU 執行個體相比,我們能夠在沒有任何修改現有程式碼的情況下,縮短 40% 的物件識別訓練時間。「
 
TRI-AD 自動駕駛 (識別) 部總監 Junya Inada
Missing alt text value

三個廣告

 

「通過使用 Amazon EC2 P4d 執行個體,我們能夠與上一代 GPU 執行個體相比,立即降低訓練成本,從而使我們能夠增加工模型培訓的團隊數量。P4d 的網路改進使我們能夠有效率地擴展到數十個執行個體,這使我們能夠在測試車或模擬環境中快速最佳化、重新培訓和部署模型,以進行進一步測試。「
 
TRI-AD 基礎設施工程部資深總監 Jack Yan
Missing alt text value

GE Healthcare

 

GE Healthcare 是領先全球的醫療技術與數位解決方案創新業者。GE Healthcare 讓臨床醫師透過其 Edison 智慧平台支援的智慧裝置、資料分析、應用程式與服務,更快作出有所本的決定。 
 
「在 GE Healthcare,我們為臨床醫護人員提供工具,幫助他們彙總資料、將 AI 和分析應用於該資料,並發現改善患者成效、提高效率並消除錯誤的見解。我們的醫療成像裝置會產成大量資料,需請我們的資料科學家處理。以先前的 GPU 叢集,得花數日時間才能完成複雜 AI 模型 (例如 Progressive GAN) 的訓練,用以模擬和檢視結果。使用新的 P4d 執行個體,能將處理時間從數日縮短為數小時。我們看到具有不同影像大小的訓練模型的速度提高了兩到三倍,同時透過增加批次大小和更高的生產力,以及更快的模型開發週期來實現更好的效能。「
 
GM Healthcare 人工智能部資深副總裁兼總經理 Karley Yoder
Missing alt text value

HEAVY.AI

 

HEAVY.AI 是加速分析的先驅。HEAVY.AI 平台用於商業和政府,在資料中尋找超出主流分析工具的限制。
 
「在 HEAVY.AI,我們正在努力打造一個資料科學和分析融合的未來,以破解並融合資料孤島。客戶正在利用其中可能包含位置和時間的龐大資料以窺知全貌;透過空間時間資料的精密視覺化,所能了解的不僅只有目前發生的情形,也包括時間與地點。我們的技術讓可以看到森林和樹木。透過使用 Amazon EC2 P4d 執行個體,與上一代 GPU 執行個體相較,我們部署平台的成本大幅降低,因此能夠經濟實惠地擴展大規模資料集。A100 的網路改進使我們在擴充數十億行資料方面提高了我們的效率,並使我們的客戶能夠更快地獲得見解。「
 
HEAVY.AI 的美國公部門副總裁 Ray Falcione
Missing alt text value

澤諾科技股份有限公司

 

Zenotech Ltd 透過使用 HPC Clouds 遞送隨需使用授權模型,加上利用 GPU 可享的極高效能優勢,正在改寫線上工程設計的樣貌。 
 
「在 Zenotech,我們正在開發工具,使設計師能夠創造更高效且更環保的產品。我們跨越行業經營,我們的工具也透過大規模模擬提供更高的產品效能洞察力。使用 AWS P4d 執行個體之下,與上一代 GPU 相較,我們的模擬速度快了 3.5 倍。這種加速大幅縮短了我們解決的時間,使我們的客戶能夠比以前可能的更快地將設計推出市場或進行更高的真度模擬。「
 
Jamil Appa,Zenotech 的 Director 和 Cofounder
Missing alt text value

Aon

 

Aon 是一大全球專業服務公司,提供廣泛的風險、退休與保健解決方案。Aon PathWise 是 GPU 型且可擴展的 HPC 風險管理解決方案,可供保險公司和再保公司、銀行和退休基金用以因應當今的重要挑戰,例如對沖策略測試、規管與經濟預測,和預算編列。 
 
「在 PathWise Solutions Group LLC,我們的產品允許保險公司、再保險公司和退休基金獲得新一代技術,以快速解決當今的關鍵保險挑戰,例如機器學習、對沖策略測試、監管和財務報告、業務規劃和經濟預測,以及新產品開發和定價。透過採用 Amazon EC2 P4d 執行個體,對於大多數困難的計算,我們在單與雙精度的計算速度方面較上一代 GPU 執行個體作出卓越的提升,讓客戶首度能夠執行全新計算範圍和預測。速度很重要,我們繼續為客戶提供有意義的價值和最新技術,藉助 AWS 的新執行個體。「
 
萬比奇,安百思策略與技術集團全球生活解決方案總監
Missing alt text value

Rad AI

 

Rad AI 由放射學和人工智能專家組成的產品,可以最大程度地提高放射科醫生的生產力,最終使醫療保健更廣泛訪問並改善患者成效。  閱讀個案研究以了解更多
 
「在 Rad AI,我們的使命是為每個人提高醫療保健的接入和質量。專精於醫療成像工作流程的 Rad AI 為放射科醫生節省時間、減少過勞,並且提高準確度。我們使用 AI 將放射科工作流程自動化,協助精簡放射科的報告程序。利用新的 EC2 P4d 執行個體,比起前代 P3 執行個體,我們的推論速度加快,並能以快 2.4 倍的速度訓練模型,同時準確度更高。這樣可以更快、更準確的診斷,並更好地獲得我們在美國各地的客戶提供的高品質放射治療服務。「
 
Doktor Gurson,Rad AI 的 Cofounder
Missing alt text value

產品詳細資訊

Instance Size
vCPUs
Instance Memory (GiB)
GPU – A100
GPU memory
Network Bandwidth (Gbps)
GPUDirect RDMA
GPU Peer to Peer
Instance Storage (GB)
EBS Bandwidth (Gbps)
p4d.24xlarge
96
1152
8
320 GB
HBM2
400 ENA 和 EFA
600 GB/s NVSwitch
8 x 1000 NVMe SSD
19
p4de.24xlarge
96
1152
8
640 GB
HBM2e
400 ENA 和 EFA
600 GB/s NVSwitch
8 x 1000 NVMe SSD
19

開始使用適用於 ML 的 P4d 執行個體

    Amazon SageMaker 是一項完全受管的服務,用於建置、訓練和部署 ML 模型。與 P4d 執行個體搭配使用時,客戶可以輕鬆擴展到數十、數百或數千個 GPU,這樣便能更快速地訓練任何規模的模型,無須擔心設定叢集和資料管道。

    DLAMI 為機器學習者和研究人員提供基礎架構和工具,以便在任何規模加速雲端中的 DL。 深度學習容器是預先安裝的 Docker 映像,具有 DL 框架,可讓您輕鬆地快速部署自訂 ML 環境,從頭開始跳過複雜的建置和優化環境的過程。

開始使用適用於 HPC 的 P4d 執行個體

P4d 執行個體是執行工程模擬、運算金融、地震分析、分子建模、基因體、轉譯和其他以 GPU 為基礎的 HPC 工作負載的理想選擇。HPC 應用程式通常需要高速網路效能、快速儲存、大量記憶體、超強運算能力,也可能需要以上所有特點。P4d 執行個體支援 EFA,可讓 HPC 應用程式利用訊息傳遞介面 (MPI) 擴展至數千個 GPU。AWS Batch 和 AWS ParallelCluster 可協助 HPC 開發人員能迅速建置並擴展分散式 HPC 應用程式。

進一步了解