Comment a été ce contenu ?
L’IA a trouvé sa voix et les start-ups sont à l’écoute : comment les acteurs de la révolution peuvent-ils tirer parti de l’un des principaux marchés émergents de 2025 ?
Les modèles de raisonnement ont dominé le discours autour de l’IA ces dernières années, mais 2025 a vu une nouvelle modalité entrer en scène : la voix. Il n’y a pas si longtemps, le concept d’interface avec la technologie par le biais de la parole était réservé aux romans de science-fiction plutôt qu’à la vie réelle. À l’époque, vous parliez dans votre téléphone, pas avec. Les choses ont commencé à changer dans les années 2010 avec le succès de produits tels qu’Amazon Alexa, Siri, Google Assistant et Bixby, qui ont aidé une grande partie des utilisateurs à prendre l’habitude de discuter avec leurs appareils.
Passons rapidement à la course à l’IA dans laquelle nous vivons aujourd’hui ; l’amélioration des performances et de la latence a permis aux applications potentielles de l’IA vocale de voir leur popularité monter en flèche. Des centres d’appels à l’hôtellerie, en passant par les soins de santé et l’apprentissage des langues, de nouvelles possibilités semblent se présenter jour après jour. Ce genre de choses ne passe pas inaperçu, et en raison de l’intérêt des investisseurs, de l’innovation des start-up et de l’évolution des comportements des consommateurs, l’IA vocale est prête à causer de grands changements dans les mois et années à venir.
L’IA conversationnelle : une tendance qui mérite d’être évoquée
Les gens croyaient jadis que les téléphones attiraient les mauvais esprits. Maintenant que cette crainte est passée, nous en avons tous un avec nous dans nos poches. De même, la popularité croissante des assistants vocaux à domicile et sur les appareils a contribué à normaliser l’interaction vocale avec la technologie, et même façonné le comportement des consommateurs, en particulier chez les jeunes générations. Selon leFuture Shopper Report de VML, 46 % des consommateurs mondiaux ont déclaré posséder un assistant intelligent en 2023, contre 49 % en 2024. 23 % des consommateurs dans le monde déclarent utiliser régulièrement des assistants intelligents à commande vocale pour effectuer des achats, et 19 % les ont utilisés pour commander des produits par le passé.
Parallèlement à l’évolution des habitudes des consommateurs, les récentes avancées dans les technologies de base qui sous-tendent la voix ouvrent la voie à la création de valeur future. 2024 a marqué une percée dans les systèmes vocaux orchestrés combinant la synthèse vocale, de grands modèles de langage et la synthèse vocale pour écouter, raisonner et répondre dans le cadre d’une conversation semblable à celle avec un humain, mais ce n’était que le début. Des modèles de synthèse vocale dédiés capables de contourner le besoin de représentation du texte typique des pipelines d’IA vocale traditionnels sont entrés sur le marché. Pensez au mode vocal de ChatGPT. Ajoutez à cela l’essor de l’IA agentique en général, et la voix est rapidement passée du statut de curiosité pour les utilisateurs à celui de modalité viable pour les solutions destinées aux entreprises.
Une activité chez les start-ups qui en dit long
Alors que le marché de l’IA vocale continue de se développer, les start-ups s’empressent d’y revendiquer leur place. Rien que dans Y Combinator, la part de chaque construction par lots utilisant la technologie vocale est passée de 13 % en hiver 2024 à 14 % en été 2024, puis à 22 % en automne 2024. Les acteurs de la révolution qui souhaitent saisir l’opportunité de l’IA vocale doivent être à l’écoute des attentes des investisseurs.
Selon Andreesson Horowitz (a16z), les investisseurs, ainsi que les clients, s’intéressent principalement aux solutions d’intelligence artificielle vocale qui ciblent les secteurs dans lesquels le téléphone est généralement utilisé pour les démonstrations destinées aux clients, est plus efficace en raison de la réglementation, ou offre un taux de réussite plus élevé que les autres moyens d’interagir avec les clients. Les secteurs à forte valeur ajoutée comprennent la logistique, le recouvrement de créances et les soins de santé, les entreprises privilégiant les solutions qui peuvent fournir des résultats clairs et mesurables. Elles s’attendent également à un retour sur investissement impressionnant (nous parlons d’une réduction des coûts de 30 à 50 %) ainsi qu’à une intégration parfaite avec les systèmes existants, comme la voix sur protocole Internet (VoIP).
Les acteurs de la révolution qui développent des solutions d’IA vocale doivent relever de nombreux défis pour attirer les investissements et se différencier sur le marché. Les assistants vocaux collectent et traitent des données personnelles, et les entreprises (et leurs clients) ne feront aucun compromis en matière de confidentialité et de conformité réglementaire. La concurrence s’intensifie également, et les start-ups doivent s’efforcer de se différencier sur un marché de plus en plus concurrentiel. Cela implique de faire face à un afflux de produits d’IA vocale pensés à la fois pour les secteurs horizontaux et verticaux, ainsi que de plateformes de développement qui permettent aux équipes internes de créer leurs propres agents vocaux. La rapidité de commercialisation est donc essentielle.
Les solutions vocales agentiques peuvent se mettre à l’échelle rapidement une fois mises en œuvre, mais les acteurs perturbateurs peuvent avoir à surmonter des obstacles lorsqu’ils traitent avec des entreprises plus traditionnelles. C’est là que des résultats mesurables et un retour sur investissement impressionnant comptent véritablement. Il y a aussi la question de la monétisation. Comme le note a16z, la plupart des produits vocaux étaient initialement vendus à la minute. Cependant, à mesure que le coût des modèles sous-jacents a diminué, les concurrents ont commencé à lutter sur les prix. À l’avenir, les stratégies de monétisation combineront probablement les frais de plateforme avec des composants basés sur l’utilisation. Pour surmonter ces défis, les start-ups doivent travailler en collaboration avec des partenaires technologiques fiables.
Plus de deux décennies d’expérience dans la technologie pionnière de l’IA vocale
Amazon Web Services (AWS) a une longue expérience en matière d’innovation dans le domaine de l’IA vocale, à commencer par le lancement d’Amazon Alexa en 2014, qui a contribué à lancer l’interaction vocale grand public. Depuis lors, AWS n’a cessé de faire progresser ce domaine grâce à des technologies comme Amazon Transcribe, Amazon Polly et Amazon Lex. L’année 2024 a vu le lancement d’Amazon Alexa+, qui intègre l’IA générative pour permettre des conversations contextuelles plus naturelles.
AWS propose aujourd’hui des modèles de pointe, comme Amazon Nova Sonic, désormais disponible dans Amazon Bedrock, qui repoussent les limites des interactions vocales en temps réel similaires à celles avec un être humain. Amazon Nova Sonic peut être utilisé dans un large éventail d’applications, notamment l’automatisation des appels de support client, le marketing sortant, les assistants personnels et les agents à commande vocale, ainsi que l’enseignement interactif et l’apprentissage des langues. AWS propose également des solutions au silicium rentables conçues pour les charges de travail d’IA, avec les puces AWS Trainium et AWS Inferentia.
Un tremplin pour les futurs leaders du marché
Au-delà de la technologie, AWS fournit également une expertise stratégique et des programmes pour aider les start-ups à se développer plus rapidement et plus intelligemment. Par exemple, le programme accélérateur d’IA générative AWS est conçu pour soutenir et propulser la prochaine vague de perturbateurs de l’IA en offrant la possibilité d’apprendre auprès de partenaires du programme tels que NVIDIA et Mistral AI. Le programme de 10 semaines s’inscrit dans le cadre d’un engagement plus large de 230 millions USD d’AWS visant à aider les start-ups à développer rapidement des applications d’IA générative à l’échelle mondiale. Les start-ups participantes peuvent recevoir jusqu’à 1 million USD, en plus de conseils techniques et commerciaux, et accéder à des millions de clients actifs via AWS Marketplace.
L’accélérateur d’IA générative AWS a déjà aidé des start-ups innovantes à devenir des leaders dans le domaine de l’IA vocale. Prenons l’exemple de Cartesia, un fournisseur de plateforme d’IA vocale spécialisé dans l’intelligence multimodale en temps réel construite à l’aide de modèles de représentation d’état (SSM) de l’entreprise, une architecture d’IA révolutionnaire initialement mise au point par son équipe fondatrice lors de ses études de doctorat à Stanford.
Aujourd’hui, Cartesia est reconnue pour son modèle de synthèse vocale professionnel de pointe pour les conversations en temps réel, qui permet une génération vocale de qualité humaine avec une latence de seulement 40 millisecondes. Le modèle phare de la société, Sonic, est deux à trois fois plus rapide que les alternatives et permet aux entreprises de déployer des agents vocaux ultra-réalistes dans tous les secteurs d’activité avec une précision parfaite sur des phrases complexes.
Les choses deviennent intéressantes
Le marché de l’IA vocale se développe à un rythme soutenu, et la concurrence s’intensifie. À l’avenir, nous allons assister à une prolifération de nouvelles API de modèles de synthèse vocale et de nouvelles plateformes d’agents vocaux provenant de multiples fournisseurs, ainsi qu’à une confiance croissante dans la capacité des agents vocaux à effectuer des tâches complexes en plusieurs étapes dans tous les secteurs verticaux. Les attentes des clients et des investisseurs sont grandes, mais avec une stratégie et un soutien appropriés, les start-ups ont beaucoup à gagner dans le domaine de l’IA vocale. Un partenariat avec AWS peut aider les acteurs du secteur à créer des solutions d’IA vocale utilisant une technologie de pointe, sur une infrastructure conçue pour les charges de travail d’IA. Des programmes tels que l’accélérateur d’IA générative AWS peuvent également permettre aux start-ups d’accéder à une expertise éprouvée et, surtout, de réduire les délais de commercialisation tout en élargissant la portée de la clientèle.
Comment a été ce contenu ?