Amazon SageMaker HyperPod の特徴

何千もの AI アクセラレーターにわたって生成 AI モデル開発を拡張し、加速します

タスクガバナンス

Amazon SageMaker HyperPod は、トレーニングや推論などの生成 AI モデル開発タスク全体にわたって、コンピューティングリソースの割り当てに関する完全な可視性とコントロールを提供します。SageMaker HyperPod はタスクキューを自動的に管理し、コンピューティングリソースをより効率的に使用してモデル開発コストを削減しながら、最も重要なタスクが優先されるようにします。 管理者は、いくつかの簡単なステップで、さまざまなタスクの優先順位を定義し、各チームまたはプロジェクトが使用できるコンピューティングリソースの数の制限を設定できます。 その後、データサイエンティストとデベロッパーは、管理者が設定したコンピューティングリソースの制限と優先順位に従って、SageMaker HyperPod が自動的に実行するタスク (トレーニングの実行、特定のモデルのファインチューニング、トレーニング済みモデルの予測など) を作成します。優先度の高いタスクをすぐに完了する必要があるが、すべてのコンピューティングリソースが使用中である場合、SageMaker HyperPod は優先度の低いタスクからコンピューティングリソースを自動的に解放します。 さらに、SageMaker HyperPod は、待機中のタスクを加速するために、アイドル状態のコンピューティングリソースを自動的に使用します。SageMaker HyperPod は、実行中のタスクやコンピューティングリソースが使用可能になるのを待っているタスクを管理者がモニタリングおよび監査できるダッシュボードを提供します。

詳細を確認する

柔軟なトレーニングプラン

トレーニングのタイムラインと予算を満たすために、SageMaker HyperPod は、コンピューティングキャパシティの複数のブロックからコンピューティングリソースを使用する極めてコスト効率の高いトレーニングプランの作成をサポートします。トレーニングプランを承認すると、SageMaker HyperPod はインフラストラクチャを自動的にプロビジョニングし、これらのコンピューティングリソースでトレーニングジョブを実行します。手動による介入は不要です。ジョブをコンピューティングの可用性に合わせて調整するためのトレーニングプロセスの管理にかかる数週間分の労力を節約できます。

詳細を確認する

 

モデルをカスタマイズするための最適化されたレシピ

SageMaker HyperPod レシピは、あらゆるスキルセットのデータサイエンティストやデベロッパーが最新のパフォーマンスの恩恵を受けながら、Llama、Mixtral、Mistral、DeepSeek モデルなどの公開されている生成 AI モデルのトレーニングとファインチューニングをすぐに開始するのに役立ちます。さらに、Nova Micro、Nova Lite、Nova Pro などの Amazon Nova 基盤モデルを、教師ありファインチューニング (SFT)、知識蒸留、直接優先最適化 (DPO)、近位ポリシー最適化 (DPO)、継続的な事前トレーニングなどの一連の手法を使用してカスタマイズできます。また、SFT、蒸留、DPO にわたるパラメータ効率の高いトレーニングオプションとフルモデルトレーニングオプションの両方がサポートされています。各レシピには、AWS によってテストされたトレーニングスタックが含まれています。これにより、さまざまなモデル設定をテストする何週間もの煩雑な作業が不要になります。1 行のレシピ変更で GPU ベースと AWS Trainium ベースのインスタンスを切り替えたり、トレーニングの回復力を高めるために自動モデルチェックポイントを有効にしたり、SageMaker HyperPod において本番でワークロードを実行したりできます。

高性能分散トレーニング

SageMaker HyperPod は、モデルとトレーニングデータセットを AWS アクセラレーター間で自動的に分割することで、分散トレーニングを加速します。これは、AWS ネットワークインフラストラクチャとクラスタートポロジのトレーニングジョブを最適化するとともに、チェックポイントの保存頻度を最適化することでモデルのチェックポイントを効率化して、トレーニング中のオーバーヘッドを最小限に抑えるのに役立ちます。

高度なオブザーバビリティと実験ツール

SageMaker HyperPod オブザーバビリティは、Amazon Managed Grafana で事前に設定された統合ダッシュボードを提供し、モニタリングデータは Amazon Managed Prometheus ワークスペースに自動的に公開されます。パフォーマンスメトリクス、リソース使用率、クラスターの状態を単一のビューでリアルタイムで確認できるため、チームはボトルネックをすばやく特定し、コストのかかる遅延を防ぎ、コンピューティングリソースを最適化できます。HyperPod は Amazon CloudWatch Container Insights との統合により、クラスターのパフォーマンス、正常性、使用状況に関するより深いインサイトを提供できます。SageMaker でのマネージド TensorBoard は、モデルアーキテクチャを視覚化して収束の問題を特定および是正することで、開発時間を節約するのに役立ちます。SageMaker でのマネージド MLflow は、実験を大規模かつ効率的に管理するのに役立ちます。

Photo

ワークロードのスケジューリングとオーケストレーション

SageMaker HyperPod のユーザーインターフェイスは、Slurm または Amazon Elastic Kubernetes Service (Amazon EKS) を使用して高度にカスタマイズできます。必要なフレームワークやツールを選択してインストールできます。すべてのクラスターは、選択したインスタンスタイプとカウントでプロビジョニングされ、ワークロード全体で使用できるように保持されます。SageMaker HyperPod での Amazon EKS サポートにより、一貫した Kubernetes ベースの管理者エクスペリエンスを享受しながらクラスターを管理および運用できます。トレーニングからファインチューニング、推論まで、ワークロードを効率的に実行してスケールできます。コンピューティングキャパシティを共有し、異なるタイプのワークロードに合わせて Slurm と Amazon EKS を切り替えることもできます。

クラスタのヘルスチェックと自動修復

モデル開発ワークロード中にインスタンスで欠陥が発生した場合、SageMaker HyperPod はインフラストラクチャの問題を自動的に検出して対処します。障害のあるハードウェアを検出するために、SageMaker HyperPod は定期的にアクセラレーターとネットワークの整合性について一連のヘルスチェックを実行します。

SageMaker Jumpstart からオープンウェイトモデルのデプロイを加速

SageMaker HyperPod は、SageMaker JumpStart のオープンウェイトの基盤モデルや、S3 や FSx のファインチューニングされたモデルのデプロイを自動的に効率化します。HyperPod は必要なインフラストラクチャを自動的にプロビジョニングし、エンドポイントを設定するので、手動プロビジョニングは不要です。HyperPod のタスクガバナンスでは、エンドポイントのトラフィックを継続的に監視し、コンピューティングリソースを動的に調整すると同時に、包括的なパフォーマンスメトリックをオブザーバビリティダッシュボードに公開し、リアルタイムの監視と最適化を行います。

Photo