Amazon SageMaker AI 推論が双方向ストリーミングのサポートを開始

投稿日: 2025年11月25日

Amazon SageMaker AI 推論が音声からテキストへのリアルタイムの文字起こしで双方向ストリーミングをサポートするようになり、バッチ入力の代わりに連続的な音声処理が可能になりました。モデルは、ユーザーが話すと同時にオーディオストリームを受信して、部分的なトランスクリプトを返すことができるため、最小限のレイテンシーで音声を処理する音声エージェントを構築できます。

お客様が AI 音声エージェントを構築する際には、ユーザーの発話とエージェントの応答の間の遅延を最小限に抑えるために、リアルタイムの音声文字起こしが必要になります。データサイエンティストや機械学習エンジニアは、双方向ストリーミング用のマネージドインフラストラクチャがないため、カスタムの WebSocket 実装を構築し、ストリーミングプロトコルを管理する必要があります。チームは、モデルの精度やエージェントの機能に集中する代わりに、このインフラストラクチャの開発と保守に数週間を費やします。Amazon SageMaker AI 推論での双方向ストリーミングでは、新しい双方向ストリーム API を使用してエンドポイントを呼び出すことで、音声テキスト変換モデルをデプロイできます。クライアントが SageMaker AI ランタイムへの HTTP2 接続を開き、SageMaker AI がコンテナへの WebSocket 接続を自動的に作成します。これにより、ストリーミングオーディオフレームを処理し、生成されたトランスクリプトを部分的に返すことができます。SageMaker AI コントラクトに従って WebSocket ハンドラーを実装するコンテナはすべて自動的に動作し、Deepgram などのリアルタイム音声モデルを変更なしで実行できます。これにより、何ヶ月にもわたるインフラストラクチャ開発が不要になり、モデルのパフォーマンスの向上に集中的に時間を費やしながら、継続的な文字起こしを行う音声エージェントをデプロイできます。

双方向ストリーミングは、カナダ (中部)、南米 (サンパウロ)、アフリカ (ケープタウン)、欧州 (パリ)、アジアパシフィック (ハイデラバード)、アジアパシフィック (ジャカルタ)、イスラエル (テルアビブ)、欧州 (チューリッヒ)、アジアパシフィック (東京)、AWS GovCloud (米国西部)、AWS GovCloud (米国東部)、アジアパシフィック (ムンバイ)、中東 (バーレーン)、米国西部 (オレゴン)、中国 (寧夏)、米国西部 (北カリフォルニア)、アジアパシフィック (シドニー)、欧州 (ロンドン)、アジアパシフィック (ソウル)、米国東部 (バージニア北部)、アジアパシフィック (香港)、米国東部 (オハイオ)、中国 (北京)、欧州 (ストックホルム)、欧州 (アイルランド)、中東 (UAE)、アジアパシフィック (大阪)、アジアパシフィック (メルボルン)、欧州 (スペイン)、欧州 (フランクフルト)、欧州 (ミラノ)、アジアパシフィック (シンガポール) の AWS リージョンで利用できます。

詳細については、こちらの AWS ニュースブログとこちらの SageMaker AI ドキュメントをご覧ください。