AWS Trainium
Trainium3 は、次世代のエージェンティックアプリケーション、推論アプリケーション、動画生成アプリケーションに最適なトークンエコノミクスを実現することを目的として構築された最初の 3nm AWS AI チップです
Trainium を利用すべき理由
AWS Trainium は、Trn1、Trn2、Trn3 という専用 AI アクセラレーターのファミリーで、幅広い生成 AI ワークロードにわたるトレーニングと推論のためのスケーラブルなパフォーマンスとコスト効率を実現するように設計されています
AWS Trainium ファミリー
Trainium1
第 1 世代の AWS Trainium チップは、Amazon Elastic Compute Cloud (Amazon EC2) Trn1 インスタンスを強化します。これらのインスタンスは、同等の Amazon EC2 インスタンスよりもトレーニングコストを最大 50% 削減できます。Ricoh、Karakuri、SplashMusic、Arcee AI など多くのお客様が、Trn1 インスタンスのパフォーマンスとコスト面でのメリットを実感しています。
Trainium2
AWS Trainium2 チップは、第 1 世代 Trainium の最大 4 倍のパフォーマンスを発揮します。Trainium2 ベースの Amazon EC2 Trn2 インスタンスと Trn2 UltraServers は、生成 AI 専用に構築されており、GPU ベースの EC2 P5e および P5en インスタンスよりも 30~40% 優れた料金パフォーマンスを提供します。Trn2 インスタンスには最大 16 個の Trainium2 チップが搭載され、Trn2 UltraServer には当社独自のチップ間相互接続である NeuronLink で相互接続された最大 64 個の Trainium2 チップが搭載されています。Trn2 インスタンスと UltraServers を使用して、大規模言語モデル (LLM)、マルチモーダルモデル、拡散トランスフォーマーなどの最も要求の厳しいモデルのトレーニングとデプロイを行い、次世代の幅広い生成 AI アプリケーションセットを構築できます。
Trainium3
Trn3 UltraServers は、当社の第 4 世代 AI チップである AWS Trainium3 を搭載しています。これは、次世代のエージェンティックアプリケーション、推論アプリケーション、動画生成アプリケーションに最適なトークンエコノミーを実現することを目的として構築された AWS 初の 3nm AI チップです。Trn3 UltraServers は、Trn2 UltraServer と比較して、最大 4.4 倍のパフォーマンス、3.9 倍のメモリ帯域幅、 4 倍以上のエネルギー効率を備えていて、強化学習、Mixture-of-Experts (MoE)、推論、ロングコンテキストアーキテクチャなど、フロンティアスケールのモデルのトレーニングと提供において最適なコストパフォーマンスを実現します。
各 AWS Trainium3 チップは、2.52 ペタフロップス (PFLOP) の FP8 コンピューティングを実現し、Trainium2 の 144 GB の HBM3e メモリに比べてメモリ容量が 1.5 倍、帯域幅が 1.7 倍に増加し、メモリ帯域幅が 4.9 Tb/s になります。Trainium3 は、高密度ワークロードとエキスパートパラレルワークロードの両方向けに設計されており、高度なデータタイプ (MXFP8 および MXFP4) を搭載し、リアルタイムタスク、マルチモーダルタスク、推論タスク用にメモリおよびコンピューティングのバランスが改善されています。
Amazon Bedrock では、Trainium3 が最速のアクセラレータで、Trainium2 の最大 3 倍のパフォーマンス、提供されている他のアクセラレータの 3 倍の電力効率を実現します。大規模なサービングテスト (GPT-OSS など) では、Trn3 はユーザーあたりのレイテンシーが同程度の Trn2 のメガワットあたりの出力トークンの 5 倍以上で、大規模で持続可能でスループットの高い推論が可能になります。
デベロッパー向けに構築
新しい Trainium3 ベースのインスタンスは AI 研究者向けに構築され、AWS Neuron SDK で駆動し、
画期的なパフォーマンスを発揮しています。
PyTorch のネイティブ統合により、デベロッパーはコードを一行も変更せずにトレーニングやデプロイを行うことができます。AI
パフォーマンスエンジニアのために、Trainium3 へのより深いアクセスを可能にしました。これにより、デベロッパーはパフォーマンスをファインチューニングし、
カーネルをカスタマイズして、モデルをさらに発展させられます。イノベーションはオープン性を育むため、当社は
オープンソースのツールやリソースを通じてデベロッパーと協働することに取り組んでいます。
詳細については、Amazon EC2 Trn3 インスタンスにアクセスするか、AWS Neuron SDK を詳しく見るか、プレビューアクセスにサインアップしてください。
メリット
Trn3 UltraServers は、スケールアップ UltraServer テクノロジーにおける最新のイノベーションを体現しており、NeuronSwitch-V1 を使用して
最大 144 枚の Trainium3 チップにわたって全対全のコレクティブを高速化しています。まとめると、1 台の Trn3 UltraServer で
最大 20.7 TB の HBM3e、706 TB/秒のメモリ帯域幅、362 FP8 PFLOP を実現し、最大 4.4 倍のパフォーマンスを発揮し、
Trn2 UltraServer の 4 倍以上のエネルギー効率を実現しています。Trn3 はトレーニングと推論のコストを最小限に抑えながら最も高いパフォーマンスを発揮し、
最新の 1T 以上のパラメータ (MoE) と推論タイプモデルを備え、Trainium2 ベースのインスタンスと比較して GPT-OSS を大規模に提供する場合のスループットが
大幅に向上しています。
Trn2 UltraServers は、最大 1T のパラメータのモデルの生成 AI トレーニングと推論のための高性能で費用対効果の高いオプションで
あり続けています。Trn2 インスタンスには最大 16 個の Trainium2 チップが搭載され、Trn2 UltraServer には独自のチップ間相互接続である
NeuronLink に接続された最大 64 個の Trainium2 チップが搭載されています。
Trn1 インスタンスには最大 16 個の Trainium チップが搭載され、最大 3 つの FP8 PFLOP、9.8 TB/秒のメモリ帯域幅を備えた 512 GB の HBM、
および最大 1.6 Tbps の EFA ネットワークを実現します。
研究と実験用に構築
AWS Neuron SDK は、Trn3 インスタンス、Trn2 インスタンスと Trn1 インスタンスから最大限のパフォーマンスを引き出すのに役立つため、モデルの構築とデプロイに集中し、市場投入までの時間を短縮できます。AWS Neuron は、PyTorch、Jax、および Hugging Face、vLLM、PyTorch Lightning などの重要なライブラリとネイティブに統合されています。プロファイリングとデバッグのための深いインサイトを提供しながら、すぐに分散型トレーニングと推論用にモデルを最適化します。AWS Neuron は、Amazon SageMaker、Amazon SageMaker Hyerpod、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS ParallelCluster、AWS Batch などのサービスのほか、Ray (Anyscale)、Domino Data Lab、Datadog などのサードパーティーサービスと統合されています。
精度の目標を達成しながら高いパフォーマンスを実現するために、AWS Trainium は
BF16、FP16、FP8、MXFP8、MXFP4 などのさまざまな混合精度データタイプをサポートしています。生成 AI による急速なイノベーションを支援するために、
Trainium2 と Trainium3 は、4 倍のスパース性 (16:4)、マイクロスケーリング、確率的丸め、専用の集合エンジン向けの
ハードウェア最適化を実現しています。
Neuron を使用すると、デベロッパーはカーネル開発に Neuron Kernel Interface (NKI) を使用してワークロードを最適化できます。NKI は完全な Trainium ISA を公開しているため、命令レベルのプログラミング、メモリ割り当て、実行スケジューリングを完全に制御できます。デベロッパーは、独自のカーネルを構築するほかに、最適化されたカーネルをすぐにデプロイできるオープンソースの Neuron Kernel Library を利用できます。そして最後に、Neuron Explore はスタック全体を可視化し、デベロッパーのコードからハードウェアのエンジンに至るまで接続します。
お客様
Databricks、Ricoh、Karakuri、SplashMusic などのお客様は、Trn1 インスタンスのパフォーマンスとコスト面でのメリットを実感しています。
Anthropic、Databricks、Poolside、Ricoh、NinjaTech AI などのお客様は、Trn1 インスタンスと Trn2 インスタンスのパフォーマンスとコスト面で大きなメリットを実感しています。
Trn3 を早期に採用した企業は、次世代の大規模生成 AI モデルの効率性とスケーラビリティを新たなレベルに引き上げています。