Pular para o conteúdo principalAWS Startups

A IA encontrou sua voz, e as startups estão ouvindo: como os inovadores podem capitalizar em um dos principais mercados emergentes de 2025.

Como estava esse conteúdo?

Os modelos de raciocínio têm dominado o discurso sobre IA nos últimos anos, mas 2025 viu uma nova modalidade entrar em cena: a voz. Não faz muito tempo, o conceito de interagir com a tecnologia por meio da fala era reservado aos romances de ficção científica, e não à vida real — naquela época, o telefone era algo com o qual se falava, e não para o qual se falava. As coisas começaram a mudar na década de 2010 com o sucesso de produtos como Amazon Alexa, Siri, Google Assistant e Bixby, que ajudaram boa parte da população em geral a se sentir à vontade para conversar com seus dispositivos.

Avançando rapidamente para a corrida espacial da IA em que vivemos hoje, as melhorias na performance e na latência possibilitaram que as aplicações potenciais da IA de voz deslanchassem. De centrais de atendimento a hotelaria, saúde e aprendizagem de idiomas, novas possibilidades parecem surgir a cada dia. Esse tipo de coisa não passa despercebido, e um ciclo de interesse dos investidores, inovação de startups e mudanças no comportamento do consumidor deixaram a IA de voz pronta para causar um grande impacto nos próximos meses e anos.

IA conversacional: uma tendência que merece destaque

As pessoas acreditavam que os telefones atraíam espíritos malignos. Isso foi superado e, atualmente, todos nós carregamos um em nossos bolsos. Da mesma forma, a crescente popularidade dos assistentes de voz domésticos e em dispositivos ajudou a normalizar a interação por voz com a tecnologia e até mesmo a moldar o comportamento do consumidor, especialmente entre as gerações mais jovens. De acordo com o Relatório do Consumidor do Futuro da VML, 46% dos consumidores globais afirmaram possuir um assistente inteligente em 2023, número que aumentou para 49% em 2024. 23% dos consumidores globais afirmam utilizar regularmente assistentes inteligentes ativados por voz para fazer compras, com outros 19% tendo utilizado esses dispositivos para encomendar produtos no passado.

Juntamente com a mudança nos hábitos dos consumidores, os recentes avanços nas tecnologias essenciais que sustentam a voz estão abrindo as portas para a criação de valor no futuro. O ano de 2024 marcou um avanço nos sistemas de fala orquestrados que combinam conversão de voz em texto, grandes modelos de linguagem e conversão de texto em voz para ouvir, raciocinar e responder em conversas semelhantes às humanas, mas isso foi apenas o começo. Modelos dedicados de conversão de voz em voz, capazes de contornar a necessidade de representação textual típica dos pipelines tradicionais de IA de voz, foram inseridos no mercado, pense no modo Voz do ChatGPT. Junte isso ao surgimento da IA agêntica de forma mais geral, e a voz rapidamente deixou de ser uma novidade para os usuários e se tornou uma modalidade viável para soluções de nível empresarial.

Atividades de startups que demonstram grande potencial

À medida que o mercado de IA de voz continua a se expandir, as startups estão se apressando para garantir seu espaço. Só na Y Combinator, a participação de cada lote desenvolvido com tecnologia de voz cresceu de 13% no segundo trimestre de 2024 para 14% no segundo trimestre de 2024 e para 22% no primeiro trimestre de 2024. Os empreendedores inovadores que pretendem aproveitar a oportunidade da IA de voz precisam estar atentos ao que os investidores estão buscando.

De acordo com Andreesson Horowitz (a16z), os investidores, e os clientes, estão principalmente interessados em soluções de IA de voz destinadas a setores em que o telefone é normalmente utilizado para demonstrações aos clientes, é mais eficaz devido a regulamentações ou oferece uma taxa de sucesso mais elevada do que formas alternativas de interagir com os clientes. Os setores de alto valor incluem logística, cobrança de dívidas e saúde, com empresas priorizando soluções que possam fornecer resultados claros e mensuráveis. Eles também esperam um ROI impressionante (estamos falando de uma redução de custos de 30 a 50%), bem como integração perfeita com sistemas existentes, como Voz sobre Protocolo de Internet (VoIP).

Os inovadores que desenvolvem soluções de IA por voz precisam enfrentar vários desafios para atrair investimentos e criar diferenciação no mercado. Os assistentes de voz coletam e processam dados pessoais, e as empresas (e seus clientes) não abrem mão da privacidade e da conformidade regulatória. A concorrência também está se intensificando, e as startups precisam se concentrar em se diferenciar em um mercado cada vez mais concorrido. Isso significa competir com um influxo de produtos de IA de voz com foco horizontal e vertical, bem como plataformas de desenvolvedores que permitem que equipes internas criem seus próprios agentes de voz. Isso torna a velocidade de entrada no mercado crítica.

As soluções de voz agênticas podem ser escaladas rapidamente após a implementação, mas os empreendedores podem precisar superar obstáculos ao lidar com empresas mais tradicionais. É nesse ponto que resultados mensuráveis e um ROI impressionante realmente importam. Há também a questão da monetização. Como observa a a16z, a maioria dos produtos de voz era inicialmente cobrada por minuto. No entanto, à medida que o custo dos modelos subjacentes diminuiu, os concorrentes começaram a oferecer preços mais baixos uns aos outros. No futuro, as estratégias de monetização provavelmente combinarão taxas de plataforma com componentes baseados no uso. Para superar esses desafios, as startups precisam trabalhar em colaboração com parceiros de tecnologia confiáveis.

Mais de duas décadas de tecnologia pioneira em IA por voz

A Amazon Web Services (AWS) possui um longo histórico de inovação em IA por voz, começando com o lançamento do Amazon Alexa em 2014, que ajudou a popularizar a interação por voz. Desde então, a AWS tem avançado continuamente nesse espaço com tecnologias como Amazon Transcribe, Amazon Polly e Amazon Lex. Em 2024, foi lançada a Amazon Alexa+, que integra IA generativa para permitir conversas mais naturais e contextuais.

Atualmente, a AWS oferece modelos de ponta, como o Amazon Nova Sonic, agora disponível no Amazon Bedrock, que ampliam os limites das interações de voz em tempo real e semelhantes às humanas. O Amazon Nova Sonic pode ser utilizado em um amplo conjunto de aplicações, incluindo automação de chamadas de suporte ao cliente, marketing outbound, assistentes pessoais e agentes habilitados para voz, bem como educação interativa e aprendizagem de idiomas. A AWS também oferece silício econômico desenvolvido para workloads de IA com os chips AWS Trainium e AWS Inferentia.

Um trampolim para os futuros líderes do mercado

Além de tecnologias, a AWS também oferece conhecimento estratégico e programas para ajudar startups a crescerem de forma mais rápida e inteligente. Por exemplo, o programa Acelerador de IA Generativa da AWS foi projetado para apoiar e impulsionar a próxima onda de disruptores de IA com a oportunidade de aprender com parceiros do programa, como NVIDIA e Mistral AI. O programa de 10 semanas faz parte de um compromisso mais amplo de USD 230 milhões da AWS para ajudar startups a desenvolver rapidamente aplicações de IA generativa em todo o mundo. As startups participantes podem receber até USD 1 milhão, além de orientação técnica e comercial e acesso a milhões de clientes ativos por meio do AWS Marketplace.

O Acelerador de IA Generativa da AWS já ajudou startups inovadoras a se tornarem líderes no espaço de IA de voz. Considere a Cartesia, uma provedora de plataforma de IA de voz especializada em inteligência multimodal em tempo real, construída utilizando os Modelos de Espaço de Estado (SSMs) da empresa, uma arquitetura de IA inovadora originalmente desenvolvida pela equipe fundadora durante seus estudos de doutorado em Stanford.

Atualmente, a Cartesia é reconhecida por seu modelo de conversão de texto em fala líder do setor para conversas em tempo real, oferecendo geração de voz com qualidade humana com apenas 40 milissegundos de latência. O modelo principal da empresa, o Sonic, é duas a três vezes mais rápido que as alternativas e permite que as empresas implantem agentes de voz ultrarrealistas em qualquer setor com precisão perfeita em frases complexas.

Agora sim, estamos conversando

O mercado de IA por voz está se expandindo rapidamente, e a concorrência está acirrada. No futuro, veremos uma proliferação de novas APIs de modelos de conversão de voz em voz e plataformas de agentes de voz de vários fornecedores, bem como uma confiança crescente na capacidade dos agentes de voz de realizar tarefas complexas e com várias etapas em todos os setores verticais. As expectativas dos clientes e investidores são altas, mas com a estratégia e o suporte certos, as startups têm muito a ganhar no espaço da IA por voz. A parceria com a AWS pode ajudar os disruptores a criar soluções de IA de voz com tecnologia de ponta, em uma infraestrutura construída para workloads de IA. Programas como o Acelerador de IA Generativa da AWS também podem dar às startups acesso a expertise comprovada e, fundamentalmente, reduzir o tempo de lançamento no mercado, ao mesmo tempo em que ampliam o alcance dos clientes.

Como estava esse conteúdo?