メインコンテンツに移動

Amazon EC2 UltraClusters

HPC アプリケーションと ML アプリケーションを大規模に実行

Amazon EC2 UltraClusters を利用すべき理由

Amazon Elastic Compute Cloud (Amazon EC2) UltraClusters は、数千の GPU または AWS Trainium などの専用の ML AI チップにスケールし、スーパーコンピュータにオンデマンドでアクセスするのに役立ちます。シンプルな従量制料金の使用モデルを通じて、設定やメンテナンスのコストなしで、機械学習 (ML)、生成 AI、および高性能コンピューティング (HPC) のデベロッパーのために、スーパーコンピューティングクラスのパフォーマンスへのアクセスを民主化します。EC2 UltraClusters にデプロイされる Amazon EC2 インスタンスには、P6e-GB200、P6-B200、P5en、P5e、P5、P4d、Trn2、Trn1 インスタンスが含まれます。

EC2 UltraClusters は、特定の AWS アベイラビリティーゾーンに共同配置され、ペタビット規模のノンブロッキングネットワークで Elastic Fabric Adapter (EFA) ネットワークを使用して相互接続された、数千のアクセラレーテッド EC2 インスタンスで構成されています。EC2 UltraClusters では、 Amazon FSx for Lustre にアクセスすることもできます。Lustre は、最も人気のある高性能な並列ファイルシステム上に構築された完全マネージド型の共有ストレージで、大量のデータセットをオンデマンドで大規模かつミリ秒未満のレイテンシーで迅速に処理できます。EC2 UltraClusters は、分散 ML トレーニングと密結合された HPC ワークロード向けにスケールアウト機能を提供します。

メリット

EC2 UltraClusters は、トレーニング時間とソリューションの実現までの時間を数週間からわずか数日に短縮するのに役立ちます。これは、より迅速にイテレーションし、深層学習 (DL)、生成 AI、HPC アプリケーションをより迅速に市場に投入するのに役立ちます。
EC2 UltraClusters は、特定の AWS アベイラビリティーゾーンに共同配置され、Pb 規模のノンブロッキングネットワークで Elastic Fabric Adapter (EFA) ネットワークを使用して相互接続された、数千のアクセラレーテッド EC2 インスタンスで構成されています。これらを使用すると、数 EFLOPS のアクセラレーテッドコンピューティングにオンデマンドでアクセスできます。 
EC2 UltraClusters をサポートする EC2 インスタンスは増え続けており、ワークロードのコストを抑えながらパフォーマンスを最大化するために適切なコンピューティングオプションを柔軟に選択できます。

特徴

高性能ネットワーク

EC2 UltraClusters にデプロイされた EC2 インスタンスは、EFA ネットワークで相互接続され、分散トレーニングワークロードと密結合 HPC ワークロードのパフォーマンスを改善します。P6e-GB200 UltraServer は、EFAv4 ネットワーク全体で最大 28.8 テラビット/秒を実現します。P6-B200 インスタンスは、最大 3.2 テラビット/秒の EFAv4 ネットワーキングを提供します。Trn2 UltraServer は、12.8 テラビット/秒の EFAv3 ネットワーキングを備えています。P5en、P5e、P5、Trn2 インスタンスは最大 3,200 Gbps を提供します。Trn1 インスタンスは最大 1,600 Gbps を提供し、P4d インスタンスは最大 400 Gbps の EFA ネットワークを提供します。また、EFA は NVIDIA GPUDirect Remote Direct Memory Access (RDMA) (P6-B200、P5en、P5e、P5、P4d) および NeuronLink (Trn2、Trn1) とも連携し、オペレーティングシステムをバイパスしてサーバー間の低レイテンシーのアクセラレーター間通信を可能にします。

ハイパフォーマンスストレージ

EC2 UltraClusters は、極めて人気のある高性能並列ファイルシステム上に構築された、フルマネージド共有ストレージである FSx for Lustre を使用します。FSx for Lustre を利用すると、巨大なデータセットをオンデマンドで大規模かつ迅速に処理し、1 ミリ秒未満のレイテンシーを実現できます。FSx for Lustre の低レイテンシーかつ高スループットの特性は、EC2 UltraClusters 上の DL、生成 AI、および HPC ワークロード向けに最適化されています。FSx for Lustre は、EC2 UltraClusters の GPU と AI チップにデータが提供され続けるようにし、極めて要求の厳しいワークロードを加速します。これらのワークロードには、大規模言語モデル (LLM) トレーニング、生成 AI 推論、DL、ゲノミクス、および金融リスクモデリングが含まれます。また、Amazon Simple Storage Service (Amazon S3) を利用すると、費用対効果の高い事実上無制限のストレージにアクセスできます。

サポートされているインスタンスと UltraServer

P6e-GB200 UltraServers

NVIDIA GB200 NVL72 によって高速化された UltraServer 設定の P6e-GB200 インスタンスは、Amazon EC2 で最高の GPU AI トレーニングと推論パフォーマンスを提供します。

詳細

P6-B200 インスタンス

NVIDIA Blackwell GPU によって高速化された Amazon EC2 P6-B200 インスタンスは、AI トレーニング、推論、ハイパフォーマンスコンピューティングのための高性能インスタンスを提供します。

詳細

Trn2 インスタンスと UltraServers

AWS Trainium2 AI チップを搭載した Trn2 インスタンスは、同等の GPU ベースのインスタンスと比較して、最大 30~40% 優れた料金パフォーマンスを提供します。

詳細

P5en、P5e、P5 インスタンス

NVIDIA H200 Tensor Core GPU を搭載した P5en および P5e インスタンスは、ML トレーニングと HPC アプリケーションのために Amazon EC2 でハイパフォーマンスを提供します。P5 インスタンスは、NVIDIA H100 Tensor Core GPU を搭載しています。

詳細

P4d インスタンス

NVIDIA A100 Tensor Core GPU を搭載した P4d インスタンスは、ML トレーニングと HPC アプリケーションのために高いパフォーマンスを提供します。

詳細

Trn1 インスタンス

AWS Trainium AI チップを搭載した Trn1 インスタンスは、高性能 ML トレーニング用に特別に構築されています。同等の EC2 のインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減します。

詳細