Amazon SageMaker HyperPod トレーニングオペレーターの発表

投稿日: 2025年6月30日

本日、Amazon SageMaker HyperPod トレーニングオペレーターの一般提供が開始されたことをお知らせします。これは、HyperPod でのレジリエントな基盤モデルトレーニング専用の Kubernetes 拡張機能です。

Amazon SageMaker HyperPod を使用すると、レジリエンシーが組み込まれた数百または数千の GPU での AI モデル開発を加速させることができ、モデルトレーニング時間を最大 40% 短縮できます。トレーニングクラスターが拡大するにつれて、トレーニング中断からの回復も大きな問題となっていきます。従来、障害からの復旧では、1 つのトレーニングプロセスで障害が発生した場合でも、すべてのノードでジョブを完全に再起動する必要がありました。その結果、ダウンタイムが増え、コストが増加していました。さらに、停止した GPU、トレーニングスループットの低さ、数値的な不安定性などのトレーニングの重要な問題を特定して解決するには、通常、複雑なカスタム監視コードが必要になり、開発タイムラインがさらに長くなり、市場投入までの時間が遅れます。

HyperPod トレーニングオペレーターを使用することで、Kubernetes ワークロードのトレーニング回復力をさらに強化できます。障害発生時にジョブを完全に再起動する代わりに、HyperPod トレーニングオペレーターが外科的回復を行い、影響を受けたトレーニングリソースのみを選択的に再起動して、障害からの回復を早めます。また、カスタマイズ可能なハングジョブ監視機能も導入され、シンプルな YAML 構成により、トレーニングバッチの停滞、数値以外の損失値、パフォーマンス低下など、問題のあるトレーニングシナリオに対処できます。始めるのは簡単です。HyperPod クラスターを作成し、トレーニングオペレーターアドオンをインストールし、オプションでハングジョブ用のカスタムリカバリポリシーを定義し、トレーニングを開始します。

このリリースは、SageMaker HyperPod が現在サポートされているすべての AWS リージョンで一般公開されます。

詳細については、ドキュメントをご覧ください。