AWS Trainium
Trainium3 是我們專門打造的第一款 3nm AWS AI 晶片,旨在為下一代代理式、推理和影片生成應用程序提供最佳詞元經濟性
為什麼選擇 Trainium?
AWS Trainium 是專門打造的 AI 加速器系列 (Trn1、Trn2 和 Trn3),旨在針對各種生成式 AI 工作負載的訓練和推論提供可擴展的效能和成本效益
AWS Trainium 系列
Trainium1
第一代 AWS Trainium 晶片為 Amazon Elastic Compute Cloud (Amazon EC2) Trn1 執行個體提供支援,該執行個體的訓練成本比同類 Amazon EC2 執行個體低多達 50%。許多客戶,包括 Ricoh、Karakuri、SplashMusic 和 Arcee AI,正在實現 Trn1 執行個體的效能和成本效益。
Trainium2
AWS Trainium2 晶片的效能比第一代 Trainium 提升高達 4 倍。以 Trainium2 為基礎的 Amazon EC2 Trn2 執行個體和 Trn2 UltraServer 專為生成式 AI 而建置,且價格效能比 GPU 型 EC2 P5e 和 P5en 執行個體高 30-40%。Trn2 執行個體配備多達 16 個 Trainium2 晶片,Trn2 UltraServer 配備多達 64 個 Trainium2 晶片,這些晶片透過 NeuronLink (我們專有的晶片間互連) 相互連接。您可以使用 Trn2 執行個體和 UltraServer 來訓練和部署要求最高的模型 (包括大型語言模型 (LLM)、多模態模型和擴散轉換器),以建置一組廣泛的下一代生成式 AI 應用程式。
Trainium3
Trn3 UltraServer 由我們的第四代 AI 晶片 AWS Trainium3 (AWS 的首款 3 nm AI 晶片) 提供支援,旨在為下一代代理式、推理和影片生成應用程式提供最佳詞元經濟性。與 Trn2 UltraServer 相比,Trn3 UltraServer 可提供高達 4.4 倍的效能、3.9 倍的記憶體頻寬以及 4 倍以上的能源效率,為強化學習、混合專家 (MoE)、推理和長內容架構等前沿型模型的訓練和使用提供了最佳性價比。
每個 AWS Trainium3 晶片可提供 2.52 PFLOPS 的 FP8 運算,相較於 Trainium2 將記憶體容量提高了 1.5 倍至 144 GB HBM3e 記憶體,頻寬提高了 1.7 倍至 4.9 TB/秒記憶體頻寬;Trainium3 專為具有進階資料類型 (MXFP8 和 MXFP4) 的密集型和專家平行工作負載而設計,並針對即時、多模態和推理任務提供改進的記憶體與運算平衡。
在 Amazon Bedrock 上,Trainium3 是速度最快的加速器,其效能比 Trainium2 提高了多達 3 倍,能源效率是服務上任何其他加速器的 3 倍。在大規模服務測試 (例如 GPT-OSS) 中,Trn3 以相似的每使用者延遲,提供 5 倍於 Trn2 的每兆瓦輸出詞元數,從而實現了更永續、輸送量更高的大規模推論。
專為開發人員建置
新的基於 Trainium3 的執行個體專為 AI 研究人員建置,並由 AWS Neuron SDK 提供支援,以充分釋放
突破性的效能。
透過原生 PyTorch 整合,開發人員無需變更任何程式碼就能進行訓練和部署。對於 AI
效能工程師,我們已經啟用了更深入的 Trainium3 存取,因此開發人員可以微調效能,
自訂核心,並進一步推進您的模型。由於創新能夠驅動開放性,我們致力於
透過開放原始碼工具和資源與我們的開發人員互動。
若要進一步了解,請造訪 Amazon EC2 Trn3 執行個體,探索 AWS Neuron SDK,或註冊取得預覽存取。
優勢
Trn3 UltraServer 採用向上擴展之 UltraServer 技術的最新創新,並搭配 NeuronSwitch-v1,
跨多達 144 個 Trainium3 晶片實現更快的所有點對所有點集體速度。總而言之,單一 Trn3 UltraServer 可提供
高達 20.7 TB 的 HBM3e、706 TB/s 的記憶體頻寬和 362 PFLOPS 的 FP8 運算能力,相較於 Trn2 UltraServer 實現了高達 4.4 倍的
效能與 4 倍以上的能源效率。Trn3 以最低的成本
提供最高的效能,透過最新的 1T+ 參數 MoE 和推理類型模型進行訓練和推論,與基於 Trainium2 的執行個體相比,顯著提高了大規模 GPT-OSS 服務
的輸送量。
Trn2 UltraServer 仍不失為一個高性能、具成本效益的選擇,適用於對
多達 1T 參數的模型進行生成式 AI 訓練和推論。Trn2 執行個體配備多達 16 個 Trainium2 晶片,Trn2 UltraServer 配備
多達 64 個 Trainium2 晶片,這些晶片透過 NeuronLink (專有的晶片間互連) 相互連接。
Trn1 執行個體配備多達 16 個 Trainium 晶片,並提供高達 3 PFLOPS 的 FP8 運算能力、512 GB 的 HBM,9.8 TB
的記憶體頻寬,以及高達 1.6 Tbps 的 EFA 網路速度。
專為研究與實驗而建置
AWS Neuron SDK 可協助您充分發揮 Trn3、Trn2 和 Trn1 執行個體的效能,讓您專注於建置和部署模型,同時縮短上市時間。AWS Neuron 與 PyTorch、Jax 以及 Hugging Face、vLLM 和 PyTorch Lightning 等基本程式庫原生整合。它可以立即最佳化模型以進行分散式訓練和推論,同時針對分析和偵錯提供深入的洞見。AWS Neuron 與 Amazon SageMaker、Amazon SageMaker Hyerpod、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS ParallelCluster 和 AWS Batch 等服務整合,同時與 Ray (Anyscale)、Domino Data Lab 和 Datadog 等第三方服務整合。
為了在達到準確性目標的同時提供高效能,AWS Trainium 支援各種混合精度的
資料類型,例如 BF16、FP16、FP8、MXFP8 和 MXFP4。為了支援生成式 AI 的快速創新步伐,
Trainium2 和 Trainium3 採用了硬體最佳化,以實現 4 倍稀疏度 (16:4)、微擴展、隨機
四捨五入和專用集體引擎。
Neuron 使開發人員可以使用 Neuron Kernel Interface (NKI) 進行核心開發,以最佳化其工作負載。NKI 公開完整的 Trainium ISA,實現對指令級程式設計、記憶體分配和執行排程的完全控制。除了構建自己的內核之外,開發人員還可以使用 Neuron 內核庫,這些庫是開放原始碼的,可隨時用於部署最佳化內核。最後,Neuron Explore 提供了完整的堆疊可見性,可連線至深達硬體內引擎的開發人員程式碼。
客戶
Databricks、Ricoh、Karakuri、SplashMusic 等客戶正在實現 Trn1 執行個體的效能和成本效益。
Anthropic、Databricks、Poolside、Ricoh 和 NinjaTech AI 等客戶正在 Trn1 和 Trn2 執行個體上實現了顯著的效能和成本效益。
Trn3 的早期採用者正在針對下一代大規模生成式 AI 模型實現全新水平的效率和可擴展性。