AWS AI 晶片

AWS Trainium

Trainium — 專為大規模、高效能且具成本效益的 AI 所打造

為什麼選擇 Trainium？

AWS Trainium 是專門打造的 AI 加速器系列 (Trainium1、Trainium2 和 Trainium3)，旨在針對各種生成式 AI 工作負載的訓練和推論提供可擴展的效能和成本效益。

AWS Trainium 系列

Trainium1

第一代 AWS Trainium 晶片為 Amazon Elastic Compute Cloud (Amazon EC2) Trn1 執行個體提供支援，該執行個體的訓練成本比同類 Amazon EC2 執行個體低多達 50%。許多客戶，包括 Ricoh、Karakuri、SplashMusic 和 Arcee AI，正在實現 Trn1 執行個體的效能和成本效益。

Trainium2

AWS Trainium2 晶片的效能比第一代 Trainium 提升高達 4 倍。以 Trainium2 為基礎的 Amazon EC2 Trn2 執行個體和 Trn2 UltraServer 專為生成式 AI 而建置，且價格效能比 GPU 型 EC2 P5e 和 P5en 執行個體高 30-40%。Trn2 執行個體配備多達 16 個 Trainium2 晶片，Trn2 UltraServer 配備多達 64 個 Trainium2 晶片，這些晶片透過 NeuronLink (我們專有的晶片間互連) 相互連接。您可以使用 Trn2 執行個體和 UltraServer 來訓練和部署要求最高的模型 (包括大型語言模型 (LLM)、多模態模型和擴散轉換器)，以建置一組廣泛的下一代生成式 AI 應用程式。

Trainium3

AWS 的第一款 3nm AWS AI 晶片，旨在為下一代代理式、推理和影片生成應用程序提供最佳詞元經濟性。AWS Trainium3 晶片提供高達 2.52 PFLOPs 的 FP8 運算效能，為 Trainium2 的 2 倍，記憶體容量提升 1.5 倍、頻寬提升 1.7 倍，達到 144 GB HBM3e 記憶體與 4.9 TB/s 記憶體頻寬。由 Trainium3 驅動的 Trn3 UltraServers，相較於 Trn2 UltraServers，提供高達 4.4 倍的效能、3.9 倍的記憶體頻寬，以及超過 4 倍的能源效率提升。Trainium3 專為密集型和專家級並行工作負載所設計，支援進階資料類型 (MXFP8 與 MXFP4)，並改善記憶體與運算的平衡，以支援即時、多模態與推理任務。

專為開發人員建置

全新基於 Trainium3 的 UltraServers 專為 AI 研究人員打造，並由 AWS Neuron SDK 提供支援，以釋放突破性效能。

透過原生 PyTorch 整合，開發人員無需變更任何程式碼就能進行訓練和部署。對於 AI 效能工程師，我們提供對 Trainium 2 更深入的存取，使開發人員能微調效能、自訂核心，並將模型效能推向更高境界。因為創新在開放環境中茁壯，我們致力於透過開源工具與資源與開發人員緊密合作。

若要深入了解，請造訪 Amazon EC2 Trn3 UltraServers，並探索 AWS Neuron SDK。

優勢

Trn3 UltraServers 搭載了最新一代的擴展式 UltraServer 技術創新，並配備 NeuronSwitch-v1，可在多達 144 個 Trainium3 晶片之間實現更快速的全對全集體通訊。Trn3 UltraServer 提供高達 20.7 TB 的 HBM3e 記憶體、706 TB/s 的記憶體頻寬，以及 362 MXFP8 PFLOPs，相較於 Trn2 UltraServers，效能提升達 4.4 倍，能源效率提升超過 4 倍。Trn3 在以最新的 1T+ 參數 MoE 與推理型模型進行訓練和推論時，提供最高效能與最低成本，並且與基於 Trainium2 的執行個體相比，在大規模 GPT-OSS 服務上可顯著提高吞吐量。

Trn2 UltraServers 仍不失為一個高性能、具成本效益的選擇，適用於對多達 1T 參數的模型進行生成式 AI 訓練和推論。Trn2 執行個體配備多達 16 個 Trainium2 晶片，Trn2 UltraServers 配備多達 64 個 Trainium2 晶片，這些晶片透過 NeuronLink (專有的晶片間互連) 連接。

Trn1 執行個體配備多達 16 個 Trainium 晶片，並提供高達 3 PFLOPs 的 FP8 運算能力、512 GB 的 HBM，9.8 TB 的記憶體頻寬，以及高達 1.6 Tbps 的 EFA 網路速度。

AWS Neuron SDK 可協助您充分發揮 Trn3、Trn2 和 Trn1 執行個體的效能，讓您專注於建置和部署模型，同時縮短上市時間。AWS Neuron 與 PyTorch、Jax 以及 Hugging Face、vLLM 和 PyTorch Lightning 等基本程式庫原生整合。它可以立即最佳化模型以進行分散式訓練和推論，同時針對分析和偵錯提供深入的洞見。AWS Neuron 與 Amazon SageMaker、Amazon SageMaker Hyerpod、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS ParallelCluster 和 AWS Batch 等服務整合，同時與 Ray (Anyscale)、Domino Data Lab 和 Datadog 等第三方服務整合。

為了在達到準確性目標的同時提供高效能，AWS Trainium 支援各種混合精度的
資料類型，例如 BF16、FP16、FP8、MXFP8 和 MXFP4。為了支援生成式 AI 的快速創新步伐，
Trainium2 和 Trainium3 採用了硬體最佳化，以實現 4 倍稀疏度 (16:4)、微擴展、隨機
四捨五入和專用集體引擎。

Neuron 使開發人員可以使用 Neuron Kernel Interface (NKI) 進行核心開發，以最佳化其工作負載。NKI 公開完整的 Trainium ISA，實現對指令級程式設計、記憶體分配和執行排程的完全控制。除了構建自己的內核之外，開發人員還可以使用 Neuron 內核庫，這些庫是開放原始碼的，可隨時用於部署最佳化內核。最後，Neuron Explore 提供了完整的堆疊可見性，可連線至深達硬體內引擎的開發人員程式碼。

客戶

包括 Anthropic、Decart、poolside、Databricks、Ricoh、Karakuri、SplashMusic 等在內的客戶，正實際體驗到 Trn1、Trn2 與 Trn3 執行個體及 UltraServers 所帶來的效能與成本效益。

Trn3 的早期採用者正在針對下一代大規模生成式 AI 模型實現全新水平的效率和可擴展性。