- Amazon EC2›
- 執行個體類型›
- Trn2 執行個體
為什麼選擇 Amazon EC2 Trn2 執行個體和 UltraServer?
Amazon EC2 Trn2 執行個體由 16 個 AWS Trainium2 晶片提供支援,專為生成式 AI 而建置,為訓練和部署具有數千億到數萬億以上參數的模型提供高效能 EC2 執行個體。Trn2 執行個體的性價比 GPU 型 EC2 P5e 和 P5en 執行個體更好 30-40%。藉助 Trn2 執行個體,您可以取得最先進的訓練和推論效能,同時降低成本,因此您可以縮短訓練時間、更快地反覆運作,以及提供 AI 支援的即時體驗。您可以使用 Trn2 執行個體來訓練和部署模型,包括大型語言模型 (LLM)、多模態模型和擴散轉換器,以此建置下一代生成式 AI 應用程式。
若要減少最强大、要求最高的模型的訓練時間並實現劃時代的回應時間 (每個詞元的延遲),所需運算能力和記憶體可能會超出單一執行個體所能提供的上限。Trn2 UltraServer 使用 NeuronLink,這是我們專有的晶片間互連,可連線四個 Trn2 執行個體中的 64 個 Trainium2 晶片,將單個節點中可用的運算、記憶體和聯網頻寬增加四倍,並為 AWS 上的深度學習和生成式 AI 工作負載提供突破性的效能。針對推論方面,UltraServer 可協助提供業界領先的回應時間,從而打造最佳的即時體驗。在訓練方面,與獨立執行個體相比,UltraServers 會透過更快的協同通訊來提高模型平行化的模型訓練速度和效率。
您可以輕鬆開始使用 Trn2 執行個體和 Trn2 UltraServer,其中原生支援 PyTorch 和 JAX 等熱門機器學習 (ML) 架構。
「Trn2 UltraServers 現已可用,可滿足要求最嚴苛的生成式 AI 工作負載的需求。」
優勢
Trn2 執行個體可協助您縮短訓練時間,並為最終使用者提供即時推論體驗。Trn2 執行個體配備 16 個 Trainium2 晶片,這些晶片透過 NeuronLink (我們專有的晶片間互連) 實現互連,可提供高達 20.8 PFLOPS 的 FP8 運算能力。Trn2 執行個體總共有 1.5 TB HBM3,同時具備 46 TB/秒 (Tbps) 的記憶體頻寬和 3.2 TB/秒 (Tbps) 的 Elastic Fabric Adapter (EFAv3) 聯網速度。Trn2 UltraServer (提供預覽版) 具有 64 個與 NeuronLink 連線的 Trainium2 晶片,可提供高達 83.2 PFLOPS 的 FP8 運算能力、總計 6 TB 的高頻寬記憶體 (總計具有 185 TB/s (Tbps) 的記憶體頻寬),以及 12.8 TB/秒 (Tbps) 的 EFAv3 聯網速度。
為實現高效的分散式訓練,Trn2 執行個體提供 3.2 Tbps 的 EFAv3 聯網速度,Trn2 UltraServer 則提供 12.8 Tbps 的 EFAv3 聯網速度。EFA 以 AWS Nitro System 為基礎建置,這意味著透過 EFA 進行的所有通訊均在傳輸過程中加密,而不會造成任何效能損失。EFA 還使用複雜的流量路由和擁堵控制協議,使其能夠可靠地擴展到數十萬個 Trainium2 晶片。在 EC2 UltraClusters 中部署 Trn2 執行個體和 UltraServer,以在單個 PB 級無封鎖網路上實現跨數萬個 Trainium 晶片的擴展分散式訓練。
Trn2 執行個體的性價比比 GPU 型 EC2 P5e 和 P5en 執行個體高出 30-40%
Trn2 執行個體的能源效率比 Trn1 執行個體高 3 倍。這些執行個體和基礎晶片使用進階的晶片製程,以及憑藉軟硬體最佳化,在大規模執行生成式 AI 工作負載時提供高能源效率。
AWS Neuron SDK 可協助您從 Trn2 執行個體與 UltraServers 中發揮完整效能。Neuron 原生整合 JAX、PyTorch 以及重要程式庫,如 Hugging Face、PyTorch Lightning 等。Neuron 專為 AI 研究人員與探索者打造,幫助他們實現突破性的效能提升。透過原生 PyTorch 整合,您無需變更任何程式碼就能進行訓練和部署。對於 AI 效能工程師,我們提供對 Trainium 2 更深入的存取,使您能微調效能、自訂核心,並將模型效能推向更高境界。使用 Neuron,您可以將 Trn2 執行個體與各種服務 (例如 Amazon SageMaker、Amazon EKS、Amazon ECS、AWS ParallelCluster 和 AWS Batch) 以及 Ray (Anyscale)、Domino Data Lab 和 Datadog 等第三方服務搭配使用。創新因開放而蓬勃發展,Neuron 致力於透過開源及與廣大 AI 社群的開放協作推動創新。
功能
Trn2 執行個體配備 16 個 Trainium2 晶片,這些晶片透過 NeuronLink 實現互連,可提供高達 20.8 PFLOPS 的 FP8 運算能力。Trn2 UltraServer 將 NeuronLink 連線能力擴展至四個 Trn2 執行個體中的 64 個 Trainium2 晶片,以提供高達 83.2 PFLOPS 的 FP8 運算能力。
Trn2 執行個體提供 1.5 TB 的加速器記憶體,總記憶體頻寬為 46 TB/秒 (Tbps)。Trn2 UltraServer 提供 6 TB 的共用加速器記憶體,並具有 185 TB/秒 (Tbps) 的總記憶體頻寬,適合用於超大型基礎模型。
為支援超大型基礎模型的擴展分散式訓練,Trn2 執行個體提供 3.2 Tbps 的 EFAv3 網路頻寬,而 Trn2 UltraServer 則提供 12.8 Tbps 的 EFAv3 聯網頻寬。與 EC2 UltraCluster 結合時,EFAv3 與 EFAv2 相比提供更低的網路延遲。每個 Trn2 執行個體支援高達 8 TB 的本機 NVMe 儲存,每個 Trn2 UltraServer 則支援高達 32 TB 的本機 NVMe 儲存,從而更快地存取大型資料集。
Trn2 執行個體和 UltraServer 支援 FP32、TF32、BF16、FP16 以及可設定的 FP8 (cFP8) 資料類型。它還支援尖端的 AI 最佳化,包括 4 倍稀疏度 (16:4),隨機捨入和專用的集體引擎。Neuron Kernel Interface (NKI) 支援使用具有類似 Triton 介面的 Python 型環境直接存取指令集架構 (ISA),讓您可以創新設計模型架構和高度最佳化的運算內核,使其效能超越現有技術。
Neuron 在 Hugging Face 模型中心上支援超過 100,000 個模型,以便在 Trn2 上進行訓練和部署,包括 Llama 和 Stable Diffusion 等熱門的模型架構。Neuron 與 JAX、PyTorch 以及各種工具、構架和程式庫 (例如 NeMo、Hugging Face、PyTorch Lightning、Ray、Domino Data Lab 和 Data Dog) 原生整合。其可以立即最佳化模型以進行分散式訓練和推論,同時針對分析和偵錯提供深入的洞見。Neuron 也與 Amazon SageMaker、Amazon EKS、Amazon ECS、AWS ParallelCluster 和 AWS Batch 等服務整合。
客戶和合作夥伴見證
以下是客戶和合作夥伴如何計劃透過 Amazon EC2 Trn2 執行個體實現業務目標的範例。
Anthropic
在 Anthropic,數百萬人員每天都依靠 Claude 開展工作。我們宣佈 AWS 取得的兩項重大進展:首先,Claude 3.5 Haiku 推出了一種新的「延遲最佳化模式」,其透過 Amazon Bedrock 將在 Trainium2 上的執行速度提高 60%。其次,Project Rainier 是一種新的叢集,其擁有數十萬個 Trainium2 晶片,可提供數百 EFLOPS,在規模上比我們之前的叢集高出五倍以上。Project Rainier 將協助推動我們的研究和下一代擴展。對於我們的客戶來說,這意味著更高的智慧、更低的價格和更快的速度。我們不僅是建置更快的 AI,還是在建置可信任的可擴展 AI。
Databricks
Databricks 的 Mosaic AI 可讓組織建置和部署高品質的代理程式系統。它以資料湖為基礎原生建置,可讓客戶輕鬆、安全地使用企業資料自訂他們的模型,以及提供更準確的特定領域輸出。由於 Trainium 的高效能和經濟高效,客戶能夠以低成本擴展 Mosaic AI 上的模型訓練。隨著對 Mosaic AI 的需求在所有客戶群體和全球範圍內不斷擴大,Trainium2 的推出將為 Databricks 及其客戶帶來巨大優勢。Databricks 是全球最大規模的資料和 AI 公司之一,公司計劃使用 TRN2 為其客戶提供更理想的結果並將 TCO 降低高達 30%。
Poolside
在 Poolside,我們著手打造 AI 將推動大部分具備經濟價值的工作和科學進步的世界。我們相信,軟體開發將成為神經網路達到人類水準智慧的第一項主要功能,因為它是我們能夠最佳地結合搜尋和學習方法的領域。為達成此目標,我們正在建置基礎模型、API 和助理,將生成式 AI 的強大功能帶到開發人員的手 (或鍵盤) 中。實現這項技術的主要關鍵點是我們用於建置和執行自身產品的基礎設施。藉助 AWS Trainium2,我們的客戶將能以其他 AI 加速器無法比擬的價格效能比,擴展其集區運算使用量。此外,我們計劃使用 Trn2 UltraServer 訓練未來模型,與 EC2 P5 執行個體相比預期可節省 40% 的費用。
Itaú Unibanco
Itaú Unibanco 的宗旨是改善客戶與資金之間的關係,對他們的生活產生積極的影響,同時擴大他們的轉型機會。在 Itaú Unibanco,我們相信每位客戶都是獨一無二的,我們專注于透過直觀的數位旅程來滿足他們的需求,以及利用 AI 的強大功能不斷適應他們的消費習慣。
我們已經在各種任務中測試 AWS Trainium 和 Inferentia,從標準推論到微調應用程式。這些 AI 晶片的效能助力我們在研究和開發領域中實現重要的里程碑。對於批次和線上推論任務,我們已發現輸送量提高了 7 倍 (與使用 GPU 相比)。這種增強的效能正在推動組織範圍內進一步擴大使用案例的規模。最新一代 Trainium2 晶片為 GenAI 帶來突破性的功能,並為 Itau 的創新開闢全新的道路。
NinjaTech AI
Ninja 是提供無限生產力的一體化 AI 代理程式:一次簡單訂閱,即可無限制存取全球最出色的 AI 模型以及頂級 AI 技能,例如:寫作、編碼、腦力激盪、影像產生、線上研究。Ninja 是提供「SuperAgent」的代理平台,該平台使用混合代理程式,具有與前沿基礎模型相當的世界級準確性 (並且在某些類別中超越後者)。Ninja 的代理技術需要最高效能的加速器,以提供客戶期望的獨特即時體驗。
我們非常高興地得知 AWS TRN2 的推出,因為我們相信它將為以 Llama 3.1 405B 為基礎的核心模型 Ninja LLM 提供最佳的每個詞元成本效能和目前最快的速度。Trn2 的低延遲、有競爭力的定價和隨需可用性令人驚訝;我們對 Trn2 的到來感到無比興奮!
Ricoh
RICOH 機器學習團隊開發工作場所解決方案和數位轉型服務,旨在管理和最佳化企業解決方案中的資訊流。
移轉至 Trn1 執行個體非常輕鬆和簡單。我們利用 4,096 個 Trainium 晶片叢集,僅用時 8 天就完成了 13B 參數 LLM 的預先訓練! 在較小模型上取得成功之後,我們對以 Llama-3-Swallow-70B 為基礎的全新、更大規模 LLM 進行微調,並且利用 Trainium,我們能夠將訓練成本降低 50%、能源效率提高 25% (與使用 AWS 中最新的 GPU 機器相比)。我們很高興利用最新一代 AWS AI 晶片 Trainium2,繼續以最低成本為客戶提供最佳效能。
PyTorch
我最喜歡 AWS Neuron NxD 推論程式庫的一點在於它與 PyTorch 模型的無縫整合。NxD 的方法簡單且使用者友好。我們的團隊能夠在短時間內以最小的程式碼變更量加入 HuggingFace PyTorch 模型。啟用連續批次處理和推測解碼等進階功能非常簡單。這種易用性可提高開發人員的生產力,讓團隊能夠更多專注於創新而非處理整合難題。
Refact.ai
Refact.ai 提供全面的 AI 工具,例如由擷取增強生成 (RAG) 支援的程式碼自動完成功能,同時提供更準確的建議,以及使用專有和開放原始碼模型的內容感知聊天。
客戶已發現,與 EC2 G5 執行個體相比,EC2 Inf2 執行個體的效能提升 20%,每美元詞元的價值提高 1.5 倍。Refact.ai 的微調功能進一步增強客戶了解並適應其組織獨特程式碼庫和環境的能力。我們同樣非常高興提供 Trainium2 的功能,這將為我們的工作流程帶來更快速、更高效的處理。這項進階技術將助力我們的客戶加速其軟體發展過程,方法是提高開發人員的工作效率,同時保持其程式碼庫的嚴格安全標準。
Karakuri Inc.
KARAKURI 建置 AI 工具以提高 Web 型客戶支援的效率並簡化客戶體驗。這些工具包括配備生成式 AI 功能、常見問答集集中化工具和電子郵件回應工具的 AI 聊天機器人,所有這些工具均提高客戶支援的效率和品質。利用 AWS Trainium,我們成功訓練 KARAKURI LM 8x7B Chat 0.1 版。對於像我們這樣的新創公司,我們需要最佳化建置時間和訓練 LLM 所需的成本。在 AWS Trainium 和 AWS 團隊的支援下,我們能夠在短時間內開發實用層級的 LLM。此外,透過採用 AWS Inferentia,我們能夠建置快速且經濟高效的推論服務。我們對 Trainium2 充滿期待,因為它將徹底變革我們的訓練程序,將訓練時間縮短 2 倍,同時將效率提升到新的高度!
Stockmark Inc.
Stockmark 以「重塑價值創造機制和推進人類發展」為使命,透過提供尖端的自然語言處理技術,幫助眾多公司建立和打造創新業務。Stockmark 的全新資料分析和收集服務稱為 Anews and SAT,這是一種資料結構化服務,透過整理組織中儲存的所有形式資訊,大幅度增加生成式 AI 的使用範圍,這就要求我們重新思考如何建置和部署模型來支援這些產品。藉助 256 個 Trainium 加速器,我們已開發並發布 stockmark-13b,這是一款具有 130 億個參數的大型語言模型,並以 2200 億詞元的日文語料資料集從零進行預先訓練。Trn1 執行個體協助我們將訓練成本降低 20%。利用 Trainium,我們成功開發一個 LLM,該 LLM 能夠以前所未有的準確性和速度為專業人士解答關鍵業務問題。鑑於公司在為模型開發提供充分的運算資源方面面臨的廣泛挑戰,這項成就尤其值得注意。由於 Trn1 執行個體具備令人印象深刻的速度和成本降低,我們很高興看到 Trainium2 將為我們的工作流程和客戶帶來的其他優勢。
入門
SageMaker 對 Trn2 執行個體的支援即將推出。您可以使用 Amazon SageMaker HyperPod 輕鬆訓練 Trn2 執行個體上的模型,該模型提供彈性的運算叢集、最佳化的訓練效能,以及對基礎運算、網路和記憶體資源的高效利用。您也可以使用 SageMaker 在 Trn2 執行個體上擴展模型部署,以更有效地管理生產中的模型並降低營運負擔。
AWS Deep Learning AMI (DLAMI) 為深度學習 (DL) 從業人員和研究人員提供基礎設施和各種工具,以在 AWS 上加速各種規模的 DL。AWS Neuron 驅動程式已在 DLAMI 中預先設定,可在 Trn2 執行個體上以最佳方式訓練 DL 模型。
針對 Trn2 執行個體的深度學習容器支援即將推出。使用這些容器,您目前能夠在 Amazon Elastic Kubernetes Service (Amazon EKS) 上部署 Trn2 執行個體,這是一種全受管 Kubernetes 服務;也可以在 Amazon Elastic Container Service (Amazon ECS) 中部署,這是一種全受管容器協同運作服務。Neuron 也可以預先安裝在 AWS 深度學習容器中。若要了解有關在 Trn2 執行個體上執行容器的更多資訊,請參閱 Neuron 容器教學。
產品詳細資訊
|
Instance Size
|
Available in EC2 UltraServers
|
Trainium2 chips
|
Accelerator memory
|
vCPUs
|
Memory (TB)
|
Instance storage (TB)
|
Network bandwidth (Tbps)
|
EBS bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|
|
Trn2.3xlarge
|
否 |
1 |
96 GB |
12 |
128 GB |
1 個 470 GB NVMe SSD
|
200 |
5 |
|
trn2.48xlarge
|
否
|
16
|
1.5 TB
|
192
|
2 TB
|
4 x 1.92 NVMe SSD
|
3.2
|
80
|
|
trn2u.48xlarge
|
是 |
16
|
1.5 TB
|
192
|
2 TB
|
4 x 1.92 NVMe SSD
|
3.2
|
80
|