跳至主要內容

AWS AI 晶片

AWS Trainium

Trainium — 專為大規模、高效能且具成本效益的 AI 所打造

為什麼選擇 Trainium?

AWS Trainium 是專門打造的 AI 加速器系列 (Trainium1、Trainium2 和 Trainium3),旨在針對各種生成式 AI 工作負載的訓練和推論提供可擴展的效能和成本效益。

AWS Trainium 系列

Trainium1

第一代 AWS Trainium 晶片為 Amazon Elastic Compute Cloud (Amazon EC2) Trn1 執行個體提供支援,該執行個體的訓練成本比同類 Amazon EC2 執行個體低多達 50%。許多客戶,包括 Ricoh、Karakuri、SplashMusic 和 Arcee AI,正在實現 Trn1 執行個體的效能和成本效益。

Trainium2

AWS Trainium2 晶片的效能比第一代 Trainium 提升高達 4 倍。以 Trainium2 為基礎的 Amazon EC2 Trn2 執行個體和 Trn2 UltraServer 專為生成式 AI 而建置,且價格效能比 GPU 型 EC2 P5e 和 P5en 執行個體高 30-40%。Trn2 執行個體配備多達 16 個 Trainium2 晶片,Trn2 UltraServer 配備多達 64 個 Trainium2 晶片,這些晶片透過 NeuronLink (我們專有的晶片間互連) 相互連接。您可以使用 Trn2 執行個體和 UltraServer 來訓練和部署要求最高的模型 (包括大型語言模型 (LLM)、多模態模型和擴散轉換器),以建置一組廣泛的下一代生成式 AI 應用程式。

Trainium3

AWS 的第一款 3nm AWS AI 晶片,旨在為下一代代理式、推理和影片生成應用程序提供最佳詞元經濟性。AWS Trainium3 晶片提供高達 2.52 PFLOPs 的 FP8 運算效能,為 Trainium2 的 2 倍,記憶體容量提升 1.5 倍、頻寬提升 1.7 倍,達到 144 GB HBM3e 記憶體與 4.9 TB/s 記憶體頻寬。由 Trainium3 驅動的 Trn3 UltraServers,相較於 Trn2 UltraServers,提供高達 4.4 倍的效能、3.9 倍的記憶體頻寬,以及超過 4 倍的能源效率提升。Trainium3 專為密集型和專家級並行工作負載所設計,支援進階資料類型 (MXFP8 與 MXFP4),並改善記憶體與運算的平衡,以支援即時、多模態與推理任務。

專為開發人員建置

全新基於 Trainium3 的 UltraServers 專為 AI 研究人員打造,並由 AWS Neuron SDK 提供支援,以釋放突破性效能。

透過原生 PyTorch 整合,開發人員無需變更任何程式碼就能進行訓練和部署。對於 AI 效能工程師,我們提供對 Trainium 2 更深入的存取,使開發人員能微調效能、自訂核心,並將模型效能推向更高境界。因為創新在開放環境中茁壯,我們致力於透過開源工具與資源與開發人員緊密合作。

若要深入了解,請造訪 Amazon EC2 Trn3 UltraServers,並探索 AWS Neuron SDK

優勢

    Trn3 UltraServers 搭載了最新一代的擴展式 UltraServer 技術創新,並配備 NeuronSwitch-v1,可在多達 144 個 Trainium3 晶片之間實現更快速的全對全集體通訊。Trn3 UltraServer 提供高達 20.7 TB 的 HBM3e 記憶體、706 TB/s 的記憶體頻寬,以及 362 MXFP8 PFLOPs,相較於 Trn2 UltraServers,效能提升達 4.4 倍,能源效率提升超過 4 倍。Trn3 在以最新的 1T+ 參數 MoE 與推理型模型進行訓練和推論時,提供最高效能與最低成本,並且與基於 Trainium2 的執行個體相比,在大規模 GPT-OSS 服務上可顯著提高吞吐量。

    Trn2 UltraServers 仍不失為一個高性能、具成本效益的選擇,適用於對多達 1T 參數的模型進行生成式 AI 訓練和推論。Trn2 執行個體配備多達 16 個 Trainium2 晶片,Trn2 UltraServers 配備多達 64 個 Trainium2 晶片,這些晶片透過 NeuronLink (專有的晶片間互連) 連接。

    Trn1 執行個體配備多達 16 個 Trainium 晶片,並提供高達 3 PFLOPs 的 FP8 運算能力、512 GB 的 HBM,9.8 TB 的記憶體頻寬,以及高達 1.6 Tbps 的 EFA 網路速度。

    AWS Neuron SDK 可協助您充分發揮 Trn3、Trn2 和 Trn1 執行個體的效能,讓您專注於建置和部署模型,同時縮短上市時間。AWS Neuron 與 PyTorch、Jax 以及 Hugging Face、vLLM 和 PyTorch Lightning 等基本程式庫原生整合。它可以立即最佳化模型以進行分散式訓練和推論,同時針對分析和偵錯提供深入的洞見。AWS Neuron 與 Amazon SageMaker、Amazon SageMaker Hyerpod、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS ParallelCluster 和 AWS Batch 等服務整合,同時與 Ray (Anyscale)、Domino Data Lab 和 Datadog 等第三方服務整合。

    為了在達到準確性目標的同時提供高效能,AWS Trainium 支援各種混合精度的
    資料類型,例如 BF16、FP16、FP8、MXFP8 和 MXFP4。為了支援生成式 AI 的快速創新步伐,
    Trainium2 和 Trainium3 採用了硬體最佳化,以實現 4 倍稀疏度 (16:4)、微擴展、隨機
    四捨五入和專用集體引擎。

    Neuron 使開發人員可以使用 Neuron Kernel Interface (NKI) 進行核心開發,以最佳化其工作負載。NKI 公開完整的 Trainium ISA,實現對指令級程式設計、記憶體分配和執行排程的完全控制。除了構建自己的內核之外,開發人員還可以使用 Neuron 內核庫,這些庫是開放原始碼的,可隨時用於部署最佳化內核。最後,Neuron Explore 提供了完整的堆疊可見性,可連線至深達硬體內引擎的開發人員程式碼。

客戶

包括 Anthropic、Decart、poolside、Databricks、Ricoh、Karakuri、SplashMusic 等在內的客戶,正實際體驗到 Trn1、Trn2 與 Trn3 執行個體及 UltraServers 所帶來的效能與成本效益。

Trn3 的早期採用者正在針對下一代大規模生成式 AI 模型實現全新水平的效率和可擴展性。

Missing alt text value

Conquer AI 效能、成本與規模

AWS Trainium2 實現突破性 AI 效能

AWS AI 晶片客戶案例