このコンテンツはいかがでしたか?
AI が独自の声を獲得し、スタートアップ企業が耳を傾けています。ディスラプターは、2025 年の主要な新興市場の 1 つをどのように活用できるでしょうか。
近年、AI をめぐる議論は推論モデルが主流でしたが、2025 年には新たなモダリティ、つまり音声が脚光を浴びるようになりました。音声を介してテクノロジーと対話するという概念が、現実世界ではなく SF 小説の世界に限られていたのは、それほど昔のことではありません。当時、スマートフォンは話しかけるものであって、 相手に話しかけるものではありませんでした。しかし、2010 年代に入ると、Amazon Alexa、Siri、Google Assistant、Bixby といった製品の成功により、一般の人々の多くがデバイスとの会話に慣れ、状況は変わり始めました。
今日の AI の宇宙開発競争に目を向けると、パフォーマンスとレイテンシーの向上により、音声 AI の潜在的な応用範囲は飛躍的に拡大しています。コールセンターからホスピタリティ、ヘルスケア、語学学習まで、新たな可能性が日々生まれています。こうした動きは見逃されず、投資家の関心、スタートアップのイノベーション、そして変化する消費者行動といった要素が相まって、音声 AI は今後数ヶ月、数年の間に大きな波を起こす準備が整っています。
会話型 AI — 話題の価値のあるトレンド
かつて人々は、電話は悪霊を引き寄せると信じていました。しかし、その考えは克服され、今では誰もがポケットに入れて持ち歩いています。同様に、家庭用およびデバイス上の音声アシスタントの人気の高まりは、テクノロジーとの音声によるやり取りを標準化し、特に若い世代の消費者行動を形成するのに役立っています。VML の Future Shopper Report によると、世界の消費者の 46 % が 2023 年にはスマートアシスタントを所有しており、2024 年には 49 % に増加すると予測されています。世界の消費者の 23 % は、購入の際に音声起動のスマートアシスタントを定期的に使用しており、さらに 19 % は過去に商品を注文する際に使用したことがあると回答しています。
消費者の習慣の変化に加え、音声を支えるコアテクノロジーの近年の進歩は、将来の価値創造への扉を開きつつあります。2024年には、 音声テキスト変換、大規模言語モデル、テキスト音声変換を組み合わせた統合音声システムが飛躍的に進化し、人間のような会話で聞き取り、推論し、応答できるようになりました。しかし、これはほんの始まりに過ぎませんでした。従来の音声 AI パイプラインに典型的なテキスト表現の必要性を回避できる専用の音声変換モデルが市場に登場しました。ChatGPT の音声モードがその好例です。Couple これに、より一般的なエージェンティック AI の台頭が加わることで、音声はユーザーにとって目新しいものではなく、エンタープライズグレードのソリューションにとって現実的な手段へと急速に進化しました。
多くのことを語るスタートアップ活動
音声 AI 市場が拡大を続ける中、スタートアップ企業は躍起になって参入を試みています。Y コンビネーターだけでも、音声技術を活用したバッチビルディングの割合は、 W24 では 13 %、S24 では 14 %、F24 では 22 % へと増加しています。音声 AI のビジネスチャンスを掴もうとするディスラプターは、投資家が何を求めているかを的確に捉える必要があります。
Andreesson Horowitz (a16z) によると、投資家や顧客は、主に音声 AI ソリューションに関心を持っています。これらのソリューションは、顧客とのデモに電話が一般的に使用されている業界、規制により電話の方が効果的である業界、あるいは顧客とのエンゲージメントにおいて他の方法よりも高い成功率を提供する業界を対象としています。物流、債権回収、医療といった高付加価値業界においては、企業は明確で測定可能な成果をもたらすソリューションを重視しています。また、高い ROI(30~50 % のコスト削減)と、VoIP(Voice over Internet Protocol)などの既存システムとのシームレスな統合も期待されています。
音声 AI ソリューションを開発するディスラプターは、投資を誘致し、市場で差別化を図るために、複数の課題に対処する必要があります。音声アシスタントは個人データを収集・処理するため、 企業(とその顧客)は プライバシーと規制遵守を妥協しません。競争も激化しており、スタートアップ企業はますます競争が激化する市場において、差別化に注力する必要があります。これは、水平型および垂直型の音声 AI 製品の流入に加え、社内チームが独自の音声エージェントを構築できる開発者プラットフォームとの競争を意味します。そのため、市場投入のスピードが極めて重要になります。
エージェント型音声ソリューションは導入後、急速に拡張できますが、ディスラプターは従来型の企業と取引する際には、いくつかのハードルを乗り越える必要があるかもしれません。まさに、測定可能な成果と優れた ROI が真に重要になるのです。収益化の問題もあります。 a16zが指摘しているように、ほとんどの音声製品は当初、1 分単位で課金されていました。しかし、基盤となるモデルのコストが下がるにつれて、競合他社は価格競争を始めました。今後、収益化戦略は、プラットフォーム料金と使用量ベースのコンポーネントを組み合わせるものになるでしょう。これらの課題を克服するために、スタートアップは信頼できるテクノロジーパートナーと協力する必要があります。
20 年以上にわたる先駆的な音声 AI テクノロジー
Amazon Web Services (AWS) は、2014 年の Amazon Alexa のリリース以来、音声AIにおける長年のイノベーションの実績を誇り、音声インタラクションの主流化に貢献してきました。以来、AWS は Amazon Transcribe、Amazon Polly、Amazon Lex などのテクノロジーでこの分野を継続的に進化させてきました。2024 年には Amazon Alexa+ がリリースされ、生成 AI を統合することで、より自然で文脈に基づいた会話を可能にしました。
AWS は現在、Amazon Bedrock で利用可能な Amazon Nova Sonic などの最先端モデルを提供しており、リアルタイムで人間のような音声インタラクションの限界を押し広げます。Amazon Nova Sonic は、カスタマーサポートの通話自動化、アウトバウンドマーケティング、音声対応パーソナルアシスタントやエージェント、インタラクティブ教育や語学学習など、幅広いアプリケーションで活用できます。AWS はまた、 AWS Trainium と AWS Inferentia チップを搭載した、AI ワークロード向けに構築されたコスト削減型のシリコンも提供しています。
将来のマーケットリーダーの出発点
AWS はテクノロジーの枠にとらわれず、スタートアップ企業の迅速かつスマートな開発を支援するための戦略的な専門知識とプログラムも提供しています。例えば、 AWS Generative AI Accelerator プログラムは、NVIDIA や Mistral AI といったプログラムパートナーから学ぶ機会を提供することで、次世代の AI ディスラプターを支援し、推進することを目的としています。この10週間のプログラムは、AWS がスタートアップ企業による世界規模の生成 AI アプリケーションの迅速な開発を支援するために行った、2 億 3,000 万米ドル規模の包括的なコミットメントの一環です。参加するスタートアップ企業は、技術面および商業面のガイダンスに加え、最大 100 万米ドルの資金を受け取ることができ、AWS Marketplace を通じて数百万のアクティブ顧客へのアクセスも得られます。
AWS Generative AI Accelerator は、革新的なスタートアップ企業が音声 AI 分野のリーダーとなることを既に支援しています。例えば、 Cartesia は、同社の創設チームがスタンフォード大学博士課程在学中に開発した画期的な AI アーキテクチャである状態空間モデル(SSM)を用いて構築された、リアルタイムのマルチモーダルインテリジェンスに特化した音声 AI プラットフォームプロバイダーです。
Cartesia は現在、リアルタイム会話を実現する業界をリードするエンタープライズ向けテキスト読み上げモデルで高く評価されており、わずか 40 ミリ秒の遅延で人間品質の音声生成を実現します。同社の主力モデルである Sonic は、他の競合製品よりも 2~3 倍高速で、あらゆる業界の企業が複雑なフレーズを完璧な精度で読み上げる超リアルな音声エージェントを導入することを可能にします。
今、私たちは話している
音声 AI 市場は 急速 に拡大しており、競争は激化しています。今後は、複数のプロバイダーから新しい音声合成モデル API や音声エージェント プラットフォームが急増するとともに、 あらゆる業種で複雑で複数ステップのタスクを完了する音声エージェントの能力に対する信頼が高まると予想されます。顧客と投資家の期待は高まっていますが、適切な戦略とサポートがあれば、スタートアップ企業は音声 AI 分野で多くの利益を得ることができます。AWS と提携することで、ディスラプター企業は AI ワークロード向けに構築されたインフラストラクチャ上に、最先端技術を駆使した音声 AI ソリューションを構築できます。AWS Generative AI Accelerator などのプログラムは、スタートアップ企業が実績のある専門知識にアクセスできるようにし、そして何より、市場投入までの時間を短縮しながら顧客リーチを拡大することを可能にします。
このコンテンツはいかがでしたか?