SageMaker HyperPod が LLM タスクのトポロジー認識スケジューリングのサポートを開始

投稿日: 2025年8月14日

SageMaker HyperPod のタスクガバナンスは、トポロジー認識スケジューリング (TAS) をサポートするようになりました。これにより、データサイエンティストは、ネットワーク通信を最小限に抑え、トレーニング効率を高めることのできる最適なネットワークトポロジー上で大規模言語モデル (LLM) タスクをスケジュールできます。

複数の高速コンピューティングインスタンスに分散される LLM トレーニングおよびファインチューニングのタスクは、それらのインスタンス間で大量のデータを頻繁に交換します。インスタンス間で複数のネットワークホップが発生すると、通信レイテンシーが高くなり、LLM タスクのパフォーマンスに影響する可能性があります。SageMaker HyperPod のタスクガバナンスでは、データサイエンティストがトポロジーの条件を指定してタスクをスケジュールする際に、ネットワークトポロジー情報を参照できるようになりました。SageMaker HyperPod のタスクガバナンスは、HyperPod のネットワークトポロジーを使用してタスクを最適な場所に自動的にスケジュールし、インスタンス間の通信を減らし、トレーニングの効率を高めます。

SageMaker HyperPod のタスクガバナンスは、HyperPod が利用可能なすべての AWS リージョン (米国西部 (北カリフォルニア)、米国西部 (オレゴン)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ストックホルム)) で利用できます。

詳細については、SageMaker HyperPod のウェブページおよび SageMaker HyperPod のタスクガバナンスのドキュメントをご覧ください。