メインコンテンツに移動

Amazon EC2 UltraServers

大規模な AI トレーニングと推論

Amazon EC2 UltraServers を利用すべき理由

Amazon Elastic Compute Cloud (Amazon EC2) UltraServers は、1 兆パラメータスケールのモデルに対して最高の AI トレーニングと推論パフォーマンスを求めるお客様に最適です。UltraServers は、専用の高帯域幅、低レイテンシーのアクセラレーターインターコネクトを使用して複数の EC2 インスタンスを接続します。これにより、EC2 インスタンス全体で緊密に結合されたアクセラレーターを活用でき、スタンドアロン EC2 インスタンスよりもはるかに多くのコンピューティングとメモリにアクセスできます。

EC2 UltraServers は、スタンドアロンの EC2 インスタンスが提供できるよりも多くのメモリとメモリ帯域幅を必要とする大規模モデルに最適です。UltraServer の設計では、インスタンス内アクセラレーター接続を使用して複数のインスタンスを 1 つのノードに接続し、新しい機能を引き出します。推論に関しては、UltraServers は業界トップクラスの応答時間を実現し、最高のリアルタイム体験を実現するのに役立ちます。トレーニングに関しては、UltraServers はスタンドアロンインスタンスと比較して、モデルの並列処理のための集団通信が高速になるため、モデルトレーニングの速度と効率が向上します。EC2 UltraServers は EFA ネットワーキングをサポートしており、EC2 UltraClusters にデプロイすると、単一ペタビット規模のノンブロッキングネットワーク上の数万のアクセラレーターにわたってスケールアウト分散トレーニングを行うことができます。UltraServers は、トレーニングと推論の両方でより高いパフォーマンスを提供することで、市場投入までの時間を短縮し、最もパフォーマンスの高い次世代の基盤モデルを搭載したリアルタイムアプリケーションの提供を支援します。

メリット

UltraServer は、高帯域幅、低レイテンシーの相互接続で多数のアクセラレーターをリンクすることで、数千億から数兆のパラメータを持つモデルの効率的なトレーニングと推論を可能にします。これにより、スタンドアロン型の EC2 インスタンスよりも多くのコンピューティングとメモリを提供します。

UltraServer を使用すると、1 つの EC2 インスタンスでは提供できない大量のメモリとメモリ帯域幅リソースを必要とする超大規模モデルのリアルタイム推論が可能になります。

UltraServer を使用すると、スタンドアロンインスタンスと比較して、モデルの並列処理のための集団通信が高速になり、トレーニング時間を短縮するのに役立ちます。

特徴

UltraServer でインスタンスを起動し、インスタンス間で高帯域幅かつ低レイテンシーの専用アクセラレーター相互接続を活用できます。UltraServer は、この専用インターコネクトに接続された多数のアクセラレーターへのアクセスを可能にし、スタンドアロン型の EC2 インスタンスよりも 1 つのノードで大幅に多くのコンピューティングとメモリを提供します。

EC2 UltraCluster にデプロイされた EC2 UltraServer は、ペタビットスケールの EFA ネットワーキングと相互接続され、分散型トレーニングワークロードのパフォーマンスを向上させます。

EC2 UltraServer は、最も人気のある高性能並列ファイルシステム上に構築されたフルマネージド型の共有ストレージである Amazon FSx for Lustre などの高性能ストレージソリューションと組み合わせて使用できます。また、Amazon Simple Storage Service (Amazon S3) では、費用対効果の高いストレージを事実上無制限に使用できます。

EC2 UltraServer は、従来の仮想化機能の多くを専用のハードウェアとソフトウェアにオフロードするビルディングブロックを豊富に取り揃えた AWS Nitro System 上に構築されています。Nitro は高いパフォーマンス、高い可用性、および高いセキュリティ性を提供することで、仮想化のオーバーヘッドを削減します。

サポート対象インスタンス

Trn2 インスタンス

AWS Trainium2 チップを搭載した、Trn2 UltraServer 設定の Trn2 インスタンス (プレビュー版で利用可能) では、AWS AI チップ専用の高帯域幅、低レイテンシー相互接続である NeuronLink に接続して、最大 64 個の Trainium2 チップまでスケールできます。Trn2 UltraServers は Amazon EC2 で生成 AI トレーニングと推論において画期的なパフォーマンスを提供します。

詳細を確認する

P6e-GB200 インスタンス

NVIDIA GB200 NVL72 によって高速化された UltraServer 設定の P6e-GB200 インスタンスにより、1 つの NVLink ドメイン内の最大 72 個の Blackwell GPU にアクセスして、360 ペタフロップスの FP8 コンピューティング (スパース性なし)、合計 13.4 TB の高帯域幅メモリ (HBM3e)、および最大 28.8 テラビット/秒の Elastic Fabric Adapter (EFAv4) ネットワーキングを活用できます。P6e-GB200 インスタンスは、8 GPU から 72 GPU の範囲の UltraServers でのみ使用できます。

詳細を確認する