Passa al contenuto principaleAWS Startups

L'intelligenza artificiale ha trovato la sua voce e le startup la stanno ascoltando: come gli innovatori possono capitalizzare su uno dei principali mercati emergenti del 2025.

Com'era questo contenuto?

I modelli di ragionamento hanno dominato il discorso sull'intelligenza artificiale negli ultimi anni, ma nel 2025 una nuova modalità è passata alla ribalta: la voce. Non molto tempo fa il concetto di interfacciamento con la tecnologia tramite la voce era riservato ai romanzi di fantascienza piuttosto che alla vita reale: allora, il telefono era qualcosa con cui si parlava, non a cui si parlava. Le cose hanno iniziato a cambiare intorno al 2010 con il successo di prodotti come Amazon Alexa, Siri, Google Assistant e Bixby, che hanno aiutato gran parte della popolazione generale a sentirsi a proprio agio a chattare con i propri dispositivi.

Facciamo un salto in avanti e arriviamo alla corsa allo spazio dell'intelligenza artificiale in cui viviamo oggi: i miglioramenti in termini di prestazioni e latenza hanno permesso alle potenziali applicazioni dell'intelligenza artificiale vocale di crescere vertiginosamente. Dai call center all'ospitalità, dall'assistenza sanitaria all'apprendimento delle lingue, nuove possibilità sembrano presentarsi giorno dopo giorno. Questo genere di cose non passa inosservato, e un volano di interesse da parte degli investitori, innovazione da parte delle startup e cambiamenti nei comportamenti dei consumatori ha preparato l'intelligenza artificiale vocale a generare forti vibrazioni nei mesi e negli anni a venire.

L'IA conversazionale: una tendenza di cui vale la pena parlare

La gente credeva che i telefoni attirassero gli spiriti maligni. Questa fase è stata superata e ora ne portiamo tutti uno con noi in tasca. Allo stesso modo, la crescente popolarità degli assistenti vocali a casa e sui dispositivi ha contribuito a normalizzare l'interazione vocale con la tecnologia e persino a modellare il comportamento dei consumatori, in particolare tra le giovani generazioni. Secondo il Future Shopper Report di VML, il 46% dei consumatori globali ha dichiarato di possedere un assistente intelligente nel 2023, salendo al 49% nel 2024. Il 23% dei consumatori in tutto il mondo afferma di utilizzare regolarmente assistenti intelligenti ad attivazione vocale per effettuare acquisti, con un ulteriore 19% che li ha utilizzati per ordinare prodotti in passato.

Oltre al cambiamento delle abitudini dei consumatori, i recenti progressi nelle tecnologie di base alla base della voce stanno aprendo la porta alla futura creazione di valore. Il 2024 ha segnato una svolta nei sistemi vocali orchestrati che combinano speech-to-text, modelli linguistici di grandi dimensioni e text-to-speech per ascoltare, ragionare e rispondere in una conversazione simile a quella umana, ma questo è stato solo l'inizio. Sono entrati sul mercato modelli speech-to-speech dedicati in grado di aggirare la necessità di rappresentazione del testo tipica delle tradizionali pipeline di intelligenza artificiale vocale: si pensi alla modalità vocale di ChatGPT. Se a ciò si aggiunge l'ascesa dell'IA agentica in generale, la voce è rapidamente passata da una novità per l'utente a una modalità praticabile per soluzioni di livello aziendale.

Attività di startup che la dice lunga

Mentre il mercato dell'intelligenza artificiale vocale continua ad espandersi, le startup si affrettano a rivendicare la propria affermazione. Solo nel caso di Y Combinator, la quota di ogni lotto costruito con tecnologia vocale è cresciuta dal 13% nel W24, al 14% nel S24, al 22% nel F24. Gli innovatori intenzionati a cogliere le opportunità offerte dall'intelligenza artificiale vocale devono sintonizzarsi su ciò che gli investitori stanno cercando.

Secondo Andreesson Horowitz (a16z), gli investitori e i clienti sono interessati principalmente alle soluzioni di intelligenza artificiale vocale destinate ai settori in cui il telefono viene generalmente utilizzato per le demo dei clienti, è più efficace a causa delle normative o offre una percentuale di successo più elevata rispetto ai modi alternativi di interagire con i clienti. I settori ad alto valore includono la logistica, il recupero crediti e l'assistenza sanitaria, con le aziende che danno priorità a soluzioni in grado di fornire risultati chiari e misurabili. Si aspettano inoltre un ROI impressionante (stiamo parlando di una riduzione dei costi del 30-50%) e una perfetta integrazione con i sistemi esistenti come il Voice over Internet Protocol (VoIP).

Gli innovatori che sviluppano soluzioni di intelligenza artificiale vocale devono affrontare numerose difficoltà per attirare investimenti e creare differenziazione sul mercato. Gli assistenti vocali raccolgono ed elaborano i dati personali e le aziende (e i loro clienti) non scendono a compromessi su privacy e conformità normativa. Anche la concorrenza si sta intensificando e le startup devono concentrarsi sulla differenziazione in un mercato sempre più affollato. Ciò significa competere con un afflusso di prodotti di intelligenza artificiale vocale focalizzati sia in orizzontale che in verticale, nonché con piattaforme di sviluppo che consentono ai team interni di creare i propri agenti vocali. Ciò rende fondamentale la velocità di immissione sul mercato.

Una volta implementate, le soluzioni vocali agentiche possono essere rapidamente scalabili, ma gli innovatori potrebbero dover superare ostacoli quando interagiscono con le aziende più tradizionali: è qui che risultati misurabili e un ROI impressionante contano davvero. C'è inoltre la questione della monetizzazione. Come nota a16z, inizialmente, la maggior parte dei prodotti vocali aveva un prezzo al minuto. Tuttavia, con la diminuzione del costo dei modelli sottostanti, i concorrenti hanno iniziato a farsi concorrenza a vicenda. In futuro, è probabile che le strategie di monetizzazione combinino le tariffe della piattaforma con componenti basate sull'utilizzo. Per superare queste sfide, le startup devono collaborare con partner tecnologici affidabili.

Oltre due decenni di tecnologia pionieristica di intelligenza artificiale vocale

Amazon Web Services (AWS) vanta una lunga esperienza di innovazione nell'intelligenza artificiale vocale, a partire dal lancio di Amazon Alexa nel 2014, che ha contribuito a fare da pioniere nell'interazione vocale mainstream. Da allora, AWS ha continuamente migliorato lo spazio con tecnologie come Amazon Transcribe, Amazon Polly e Amazon Lex. Il 2024 ha visto il lancio di Amazon Alexa+, che integra l'IA generativa per consentire conversazioni più naturali e contestuali.

Oggi, AWS offre modelli all'avanguardia come Amazon Nova Sonic, ora disponibile in Amazon Bedrock, che estendono i confini delle interazioni vocali in tempo reale, simili a quelle umane. Amazon Nova Sonic può essere utilizzato in un'ampia gamma di applicazioni, tra cui l'automazione delle chiamate di assistenza clienti, l'outbound marketing, gli assistenti e gli agenti personali abilitati alla voce, nonché l'istruzione interattiva e l'apprendimento delle lingue. AWS offre anche silicio a basso costo creato per carichi di lavoro di intelligenza artificiale con chip AWS Trainium e AWS Inferentia.

Un trampolino di lancio per i futuri leader di mercato

Oltre alla tecnologia, AWS fornisce anche competenze e programmi strategici per aiutare le startup a costruire in modo più rapido e intelligente. Ad esempio, il programma AWS Generative AI Accelerator è progettato per supportare e promuovere la nuova ondata di rivoluzionari dell'IA con l'opportunità di imparare dai partner del programma come NVIDIA e Mistral AI. Il programma di 10 settimane fa parte di un più ampio impegno di 230 milioni di dollari da parte di AWS per aiutare le startup a sviluppare rapidamente applicazioni di IA generativa a livello globale. Le startup partecipanti possono ricevere fino a 1 milione di dollari, oltre a indicazioni tecniche e commerciali e accedere a milioni di clienti attivi tramite AWS Marketplace.

L'AWS Generative AI Accelerator ha già aiutato le startup innovative a diventare leader nello spazio dell'IA vocale. Prendiamo Cartesia, un fornitore di piattaforme di intelligenza artificiale vocale specializzato in intelligenza multimodale in tempo reale creata utilizzando gli State Space Models (SSM) dell'azienda, un'architettura di intelligenza artificiale rivoluzionaria originariamente sperimentata dal team di fondatori durante i loro studi di dottorato a Stanford.

Oggi, Cartesia è riconosciuta per il suo modello di sintesi vocale aziendale leader del settore per conversazioni in tempo reale, che offre una generazione di voce di qualità umana con una latenza di soli 40 millisecondi. Il modello di punta dell'azienda, Sonic, è due-tre volte più veloce rispetto alle alternative e consente alle aziende di implementare agenti vocali ultra realistici in qualsiasi settore con una precisione perfetta su frasi complesse.

Ora stiamo parlando

Il mercato dell'intelligenza artificiale vocale si sta espandendo rapidamente e la concorrenza si sta intensificando. In futuro, assisteremo a una proliferazione di nuove API per modelli speech-to-speech e piattaforme di agenti vocali di diversi fornitori, oltre a una maggiore fiducia nella capacità degli agenti vocali di completare attività complesse e in più fasi in tutti i settori verticali. Le aspettative dei clienti e degli investitori sono elevate, ma con la giusta strategia e supporto, le startup hanno molto da guadagnare nello spazio dell'IA vocale. La collaborazione con AWS può aiutare le aziende rivoluzionarie a creare soluzioni di intelligenza artificiale vocale con tecnologia all'avanguardia, su un'infrastruttura creata per i carichi di lavoro di intelligenza artificiale. Programmi come AWS Generative AI Accelerator possono anche dare alle startup l'accesso a competenze comprovate e, cosa fondamentale, ridurre il time-to-market estendendo al contempo la portata dei clienti.

Com'era questo contenuto?