Amazon SageMaker HyperPod の新しいオブザーバビリティ機能を発表

投稿日: 2025年7月10日

Amazon SageMaker HyperPod の新しいオブザーバビリティ機能により、コンピューティングリソースとモデル開発タスク全体を包括的に可視化することで、お客様は生成 AI モデルの開発を加速できます。これにより、スタック全体から何百ものメトリクスを収集し、それらの間の相関関係を可視化し、生成 AI モデル開発タスクのパフォーマンスを復元するという手作業が不要になります。 HyperPod のオブザーバビリティは、タスクのパフォーマンスメトリクスをリアルタイムで追跡し、いずれかのメトリクスが悪化した場合はお客様に警告し、お客様が定義したポリシーを使用して根本原因を自動的に修正します。

SageMaker HyperPod のオブザーバビリティは、お客様が生成 AI モデル開発タスクを監視および最適化する方法を変革します。Amazon Managed Grafana で事前に設定されている統合ダッシュボードには、モニタリングデータが Amazon Managed Prometheus ワークスペースに自動的に公開されるため、お客様は生成 AI タスクのパフォーマンスメトリクス、リソース使用率、クラスターの健全性を 1 つのビューで確認できるようになりました。これにより、チームはボトルネックを迅速に特定し、コストを発生させる遅延を防ぎ、コンピューティングリソースを最適化できます。お客様は数回クリックするだけで、自動アラートを定義し、ユースケース固有のタスクメトリクスを導き出し、それらを統合ダッシュボードに公開できます。この機能は、トラブルシューティングにかかる時間を数日から数分に短縮することで、お客様が本番稼働までの時間を短縮し、AI への投資収益率を最大化するのに役立ちます。

SageMaker HyperPod オブザーバビリティは、米国西部 (北カリフォルニア) とアジアパシフィック (メルボルン) を除き、SageMaker HyperPod がサポートされているすべての AWS リージョンでご利用いただけます。詳細を確認して使用を開始するには、ブログドキュメント、および SageMaker HyperPod のウェブページを参照してください。