より迅速で低コストの生成 AI トレーニングを実現する Amazon EC2 Trn3 UltraServers の発表

投稿日: 2025年12月2日

AWS は、第 4 世代 AI チップ Trainium3 を搭載した Amazon Elastic Compute Cloud (Amazon EC2) Trn3 UltraServers の一般提供を発表しました。これは、次世代のエージェンシー、推論、動画生成アプリケーションに最適のトークンエコノミクスを提供することを目的として構築された、最初の 3nm AWS AI チップです。

各 AWS Trainium3 チップは 2.52 ペタフロップス (PFLOP) の FP8 コンピューティングを提供し、メモリ容量は Trainium2 の 1.5 倍で、帯域幅は 1.7 倍に増加し、HBM3e メモリは 144 GBで、メモリ帯域幅は 4.9 Tb/s です。Trainium3 は、高度なデータ型 (MXFP8およびMXFP4) を備え、リアルタイム、マルチモーダル、推論タスクのためのメモリと計算のバランスが改善された高密度ワークロードとエキスパート並列ワークロードの両方向けに設計されています。

Trn3 UltraServers は、最大 144 個の Trainium3 チップ (合計 362 個の FP8 PFLOP) までスケールアップでき、EC2 UltraClusters 3.0 では数十万個のチップまでスケールできます。完全構成の Trn3 UltraServers は、最大 20.7 TB の HBM3e と 706 TB/秒の総メモリ帯域幅を提供します。次世代の Trn3 UltraServer は、Trn2 UltraServer のチップ間インターコネクト帯域幅を 2 倍にするオールツーオールファブリックである NeuronSwitch-V1 を採用しています。

Trn3 は、Trn2 UltraServers と比較して、最大 4.4 倍のパフォーマンス、3.9 倍のメモリ帯域幅、4 倍高いワットあたりのパフォーマンスを提供し、強化学習、Mixture-of-Experts (MoE)、推論、ロングコンテキストアーキテクチャなど、最先端スケールのモデルのトレーニングと提供において最適なコストパフォーマンスを実現します。Amazon Bedrock では、Trainium3 が最速のアクセラレーターであり、ユーザーあたりのレイテンシーは同程度で、メガワットあたりの出力トークンは 5 倍以上高く、Trainium2 の最大 3 倍のパフォーマンスを提供します。

新しい Trn3 UltraServers は AI 研究者向けに構築され、AWS Neuron SDK を搭載しているため、画期的なパフォーマンスを実現できます。PyTorch のネイティブ統合により、デベロッパーはモデルコードを一行も変更せずにトレーニングやデプロイを行うことができます。AI パフォーマンスエンジニア向けに、Trainium3 へのより深いアクセスを可能にしました。これにより、パフォーマンスのファインチューニング、カーネルのカスタマイズ、モデルのさらなる拡張が可能になります。イノベーションはオープン性によって成り立つため、私たちはオープンソースのツールやリソースを通じてデベロッパーと交流することに全力を注いでいます。