Amazon Web Services ブログ
Amazon Nova 2 Sonic の紹介: 会話型 AI 向けの新しい音声変換モデル
2025 年 12 月 2 日、自然でリアルタイムな音声対話をアプリケーションにもたらす音声変換の基盤モデル Amazon Nova 2 Sonic の一般提供開始を発表しました。このモデルは、業界トップクラスの会話品質、価格設定、クラス最高の音声理解を実現し、開発者が音声アプリケーションを構築できるようにします。
Amazon は 10 年以上にわたって音声ベースのテクノロジーをリードしてきました。今年の初めに、真にスムーズな音声インタラクションを実現するという根本的な課題を解決するために、第 1 世代の Nova Sonic を発表しました。これは、音声コンテキストを維持して音声応答をユーザーの言ったことだけでなく、どのように言ったかに適応させることです。Nova 2 Sonic では、その基盤の上にモデルの機能性とアクセシビリティを高め、モデルインテリジェンスとエージェントの機能を改善し、言語サポートを拡大し、より直感的で人間のような音声インタラクションを実現するための幅広い新機能を追加しました。
Nova 2 Sonic は、ネイティブの表現力、自然なターンテイキング、ユーザーによる中断へのシームレスな処理により、サポートされている各言語で、表現力豊かな声、男性の声と女性の声を提供します。人間の好みの評価によると、リスナーは全体的なリスニング体験において、他の主要モデルよりも常に Nova 2 Sonic 出力を好んでいます。
Nova 2 Sonic は、主要な評価ベンチマークの改善に裏付けられた、強力なインテリジェンスとより信頼性の高いエージェンティックな動作を提供します。このモデルは、オーディオ入力による推論能力を評価するための評価データセットである Big Bench Audio では、他の主要な会話型 AI モデルよりも優れています。その BFCL ベンチマークスコアは、より正確で一貫性のある関数呼び出しを示していますが、ComplexFuncBench の結果は、マルチステップで制約の多いタスクの処理の改善を反映しています。Common Voice を使用して自動音声認識 (ASR) の精度の向上を実証し、指示フォロー評価 (iFEval) を使用して、詳細で構造化された指示に従う際の精度が高いことを示しました。
音声理解の向上
Nova 2 Sonic では、基盤となる音声認識機能が大幅に強化されました。このモデルでは、英数字入力、短い発話、8kHz のテレフォニー音声入力をより正確に処理できるようになりました。また、実際のデプロイシナリオでは重要な、さまざまなアクセントやバックグラウンドノイズを処理する場合にもより堅牢になります。
多言語の声によるグローバルリーチの拡大
Nova 2 Sonic の最も重要なアップデートの 1 つは、言語サポートの拡張です。元の英語、フランス語、イタリア語、ドイツ語、スペイン語の他に、Nova 2 Sonic はポルトガル語とヒンディー語をサポートするようになりました。
Nova 2 Sonic は、複数の言語をサポートするだけでなく、(同じ会話の中で言語を切り替えることができる「ポリグロット音声」を導入しています。たとえば、Tiffany の声は、1 回の対話でサポートされているすべての言語を流暢に話せるようになりました。これにより、言語が混在する文を自然に処理する高度なコード切り替え (文の中で言語を混在させることを指す言語用語) 機能が提供されます。たとえば、同じ会話ダイアログでユーザーがあるターンから次のターンに言語を切り替えたときでも、ユーザーが希望する言語で応答できます。
開発者にとっては、言語ごとに個別の音声モデルを用意しなくても、世界中の視聴者にサービスを提供するアプリケーションを構築できるということです。カスタマーサポートアプリケーションは、英語で始まり、会話の途中でスペイン語に切り替わる会話を処理し、全体を通して同じフローと音声特性を維持できます。
自然なターンテイキング
音声アクティビティ検出感度を設定できるようになり、ターンテイキング機能が強化されました。開発者は、ユースケースに応じて、これを高、中、低に設定できます。感度を高くすると応答時間が短縮され、感度が低いとユーザーが考えをまとめて話し終えるまでの時間が長くなります。これは、教育用途や、コミュニケーションの好みが異なるユーザーに会話型 AI を提供する場合などに便利です。
シームレスなクロスモーダルインタラクション
クロスモーダルサポートにより、ユーザーは同じセッション内でテキスト入力と音声入力を切り替えることができます。これは、ユーザーがいくつかの要求を話し、他の要求を入力したい場合に役立ちます。たとえば、簡単な質問をして、複雑な住所や技術仕様を入力する場合などです。
この実装では、モダリティに関係なくコンテキストが維持されるため、ユーザーは質問を入力して会話を始め、音声応答を受け取り、現在のスレッドを失うことなく音声入力を続けることができます。これにより、ユーザーが実際に望んでいるコミュニケーション方法に合わせて、より流動的で柔軟なインタラクションが可能になります。
クロスモーダル機能を使用して、ダイアログの最初にパーソナライズされたウェルカムメッセージを発話させる (最初に話させる) ためにテキストでモデルに指示したり、キーパッドトーンを表すテキストメタデータを使用してインタラクティブ音声応答 (IVR) アプリケーションを操作したりできるようになりました。たとえば、ユーザーに代わって予約をしたり、ボイスメールを残したりするために、Nova 2 Sonic でアウトバウンドコールを行う場合です。
高度なマルチエージェント機能
Nova 2 Sonic では、音声ベースの会話型 AI が複雑な複数ステップのタスクを処理する方法を改善する非同期ツール呼び出しが導入されました。モデルが外部のツールやサービスを呼び出す必要がある場合、ツールがバックグラウンドで実行されている間、モデルは一時停止せず、新しいユーザー入力に応答し続けます。
実際の動作例としては、ユーザーが「天気はどうですか?」と尋ね、その直後に「タスクリストの次は何?」と質問するといったケースが考えられます。 Nova 2 Sonic はこれらすべてのリクエストを処理し、質問にすぐに回答し、それぞれのツールから結果が返ってき次第、天気とタスクの情報を提供します。
私たちが会話の中で複数のトピックを同時に並行して処理するのと同じように、この機能は、対話の流れと即応性を維持しながら、複数の無関係なタスクを管理できる高度なインタラクションを実現します。
テレフォニーとプラットフォーム統合の強化
多くの会話型AIアプリケーションがさまざまな通信チャネルで動作する必要があることを認識したNova 2 Sonicは、Amazon Connect、Vonage、Twilio、Audiocodes などの主要なテレフォニープロバイダーや、LiveKit や Pipecat などのメディアプラットフォームと直接統合できるようになりました。
これらの統合は、音声コーデックの最適化、セッションライフサイクル管理、双方向入出力イベント処理、電話システムの音響上の課題など、電話ベースのやりとりに伴う複雑な技術的要件に対応します。開発者にとっては、Nova 2 Sonic 搭載アプリケーションを既存のコールセンターインフラストラクチャに直接デプロイしたり、電話ベースの新しいサービスを構築したりしても、根本的なテレフォニーの複雑さに対応する必要がなくなります。
Nova 2 Sonic の使用開始
Nova 2 Sonic は、モデルID amazon.nova-2-sonic-v 1:0 を使用して Amazon Bedrock から入手できます。アプリケーションですでに Nova Sonic を使用している場合、新しいバージョンへの更新は簡単です。既存のコードでモデル ID を更新するだけで、追加の設定を必要としない拡張機能をアプリケーションにすぐに活用できます。
このモデルはオリジナルの Nova Sonic と同じ双方向ストリーミング API を使用しているため、既存の統合パターンとイベント処理コードは引き続き機能します。クロスモーダル入力や設定可能なターンテイキングなどの新機能は、段階的に導入できるパラメーターやイベントを追加することで利用できます。
複数のプログラミング言語のコード例を使い始めるには、Amazon Nova Sonic 音声変換モデルのサンプルを参照してください。
知っておくべきこと
Amazon Nova 2 Sonic は、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (東京)、および欧州 (ストックホルム) の AWS リージョンでご利用いただけます。リージョンごとの提供状況や今後のロードマップについては、AWS Capabilities by Region をご覧ください。
Nova 2 Sonic は、オリジナルの Nova Sonic と同様、業界トップクラスの価格パフォーマンスと低レイテンシーを維持しています。料金についての詳細は、Amazon Bedrock の料金のページでご確認いただけます。
このモデルは、転送時と保管時の暗号化、VPC エンドポイント、詳細なアクセス制御のための AWS Identity and Access Management (IAM) との統合など、他の Amazon Bedrock モデルと同じ堅牢なセキュリティおよびコンプライアンス機能をサポートしています。
Nova 2 Sonic には、責任ある AI の使用を促進するための安全コントロールが組み込まれており、幅広いアプリケーションで適切な出力を維持するのに役立つコンテンツモデレーションも備わっています。
Amazon Nova 2 Sonic の詳細を知り、構築を開始するには、「Amazon Nova ユーザーガイド」の 「Nova Sonic」セクションで詳細な実装ガイダンスを確認してください。
– Danilo
原文はこちらです。

