Ir al contenido principalAWS Startups

La IA ha encontrado su voz, y las startups están atentas: cómo las empresas disruptivas pueden capitalizar uno de los principales mercados emergentes del 2025.

¿Qué le pareció este contenido?

Los modelos de razonamiento han dominado el discurso en torno a la IA en los últimos años, pero en 2025 una nueva modalidad ha pasado a ser el centro de atención: la voz. No hace mucho, el concepto de interactuar con la tecnología a través del habla estaba reservado a la ciencia ficción y no a la vida real. En aquel entonces, se hablaba a través del teléfono y no se le hablaba directamente al él. Todo cambió en la década de 2010 con el éxito de productos como Amazon Alexa, Siri, Google Assistant y Bixby, que ayudaron a una gran parte de la población a acostumbrarse al chat en sus dispositivos.

Hoy en día, nos vemos envueltos en una acelerada carrera espacial de la IA, y las mejoras en el rendimiento y la latencia han permitido que las aplicaciones de la IA de voz sean muy cotizadas. Da la impresión de que cada día se presentan nuevas oportunidades, como los centros de atención al cliente, las hostelerías, la atención médica y el aprendizaje de idiomas. Todo esto no pasa desapercibido, y el aumento del interés de los inversores, la innovación de las startups y los cambios en el comportamiento de los consumidores han hecho que la IA de voz esté preparada para generar grandes cambios en los próximos meses y años.

IA conversacional: una tendencia de la que vale la pena hablar

La gente solía creer que los teléfonos atraían demonios. Lo superarony ahora todos llevamos uno en los bolsillos. Del mismo modo, la creciente popularidad de los asistentes de voz para el hogar y los dispositivos ha ayudado a normalizar la interacción de voz con la tecnología e incluso a moldear el comportamiento de los consumidores, especialmente entre los más jóvenes. Según el informe de Future Shopper de VML, el 46 % de los consumidores mundiales dijeron que tenían un asistente inteligente en 2023, cifra que aumentará hasta el 49 % en 2024. El 23 % de los consumidores afirma que utiliza habitualmente asistentes inteligentes activados por voz para realizar compras, y otro 19 % los ha utilizado anteriormente para pedir productos.

Además de los cambios en los hábitos de consumo, los avances recientes en las tecnologías principales que sustentan la voz moldean el camino a la creación de valor en el futuro. El año 2024 supuso un gran avance en los sistemas de voz orquestados que combinan voz y texto con modelos lingüísticos extensos y conversión de texto a voz para escuchar, razonar y responder en una conversación similar a la humana. Pero eso fue solo el comienzo. Entraron en el mercado modelos dedicados de voz a voz capaces de eludir la necesidad de la representación de texto, típica de los canales tradicionales de IA de voz, como, por ejemplo, el modo de voz de ChatGPT. Si a esto le sumamos el auge de la IA agencial, la voz dejó de ser una novedad para el usuario y se convirtió rápidamente en una modalidad viable para soluciones de nivel empresarial.

La actividad de startup que dice mucho

A medida que se sigue expandiendo el mercado de la IA de voz, las startups se apresuran a marcar su territorio. En Y Combinator, la participación de cada lote que construye con tecnología de voz ha pasado del 13 % en W24, al 14 % en S24 y al 22 % en F24. Las empresas disruptivas que quieren aprovechar la oportunidad que ofrece la IA de voz deben estar al tanto de lo que buscan los inversores.

Según Andreesson Horowitz (a16z), tanto los inversores como los clientes están mayormente interesados en las soluciones de IA de voz en sectores en donde el teléfono se utiliza normalmente para hacer demostraciones o en donde es más eficaz por la normativa o donde ofrece una tasa de éxito más alta que las maneras alternativas. Entre las industrias de alto valor se encuentran la logística, el cobro de deudas y la atención médica. Asimismo, las empresas dan prioridad a las soluciones que pueden ofrecer resultados claros y mensurables. Esperan un notable ROI (una reducción de costos del 30 al 50 %), así como una integración perfecta con los sistemas existentes, como la voz sobre protocolo de Internet (VoIP).

Las empresas disruptivas que desarrollan soluciones de IA de voz deben abordar múltiples desafíos para atraer inversiones y ser diferentes en el mercado. Los asistentes de voz recopilan y procesan datos personales, donde las empresas (y sus clientes) no comprometerán ni la privacidad ni el cumplimiento de las normativas. La competencia también se está intensificando, y las startups deben centrarse en diferenciarse en un mercado cada vez más saturado. Esto significa competir con una gran cantidad de productos de IA de voz tanto de uso general como especializados por sector, así como con plataformas de desarrolladores que permiten a los equipos internos crear sus propios agentes de voz. Esto hace que la velocidad de comercialización sea fundamental.

Las soluciones de voz para agencias pueden escalar rápidamente una vez implementadas, pero es posible que las empresas disruptivas tengan que superar obstáculos al tratar con empresas más tradicionales. Es por eso que son importantes tener resultados mensurables y un notable ROI. Además, surge la cuestión de la monetización. Como señala a16z, la mayoría de los productos de voz inicialmente tenían un precio por minuto. Sin embargo, a medida que disminuye el costo de los modelos subyacentes, los competidores han empezado a subvalorarse unos a otros. En el futuro, es probable que las estrategias de monetización combinen las tarifas de la plataforma con componentes dependientes del uso. Para superar estos desafíos, las startups deben trabajar en colaboración con socios tecnológicos de confianza.

Más de dos décadas de tecnología pionera de IA de voz

Amazon Web Services (AWS) posee una larga trayectoria de innovación en IA de voz, que comenzó con el lanzamiento de Amazon Alexa en 2014, el cual ayudó a ser pionera en la interacción de voz convencional. Desde entonces, AWS no ha dejado de avanzar en este ámbito con tecnologías como Amazon Transcribe, Amazon Polly y Amazon Lex. En 2024 se lanzó Amazon Alexa+,que integra la IA generativa para permitir conversaciones contextuales y más naturales.

Hoy en día, AWS ofrece modelos de última generación como Amazon Nova Sonic, disponible en Amazon Bedrock, que rompen los límites de las interacciones de voz en tiempo real similares a las humanas. Amazon Nova Sonic se puede utilizar en un amplio conjunto de aplicaciones, como la automatización de llamadas de atención al cliente, el marketing tradicional, los asistentes y agentes personales con voz, la educación interactiva y el aprendizaje de idiomas. AWS también ofrece un chip económico diseñado para cargas de trabajo de IA con chips de AWS Trainium y AWS Inferentia.

Un punto de partida para los futuros líderes del mercado

Más allá de la tecnología, AWS también ofrece experiencia estratégica y programas para ayudar a las startups a crear de forma más rápida e inteligente. Por ejemplo, el programa Acelerador de IA generativa de AWS está diseñado para apoyar e impulsar la próxima ola de empresas disruptivas de la IA, con la oportunidad de aprender de socios del programa, como NVIDIA y Mistral AI. El programa de 10 semanas forma parte de un compromiso más amplio de 230 millones de USD por parte de AWS para ayudar a las startups a desarrollar rápidamente aplicaciones de IA generativa en todo el mundo. Las startups participantes pueden recibir hasta 1 millón de USD, además de orientación técnica y comercial, y acceder a millones de clientes activos a través de AWS Marketplace.

El Acelerador de IA generativa de AWS ya ha ayudado a startups innovadoras a convertirse en líderes en el sector de la IA de voz. Tomemos el ejemplo de Cartesia, un proveedor de plataformas de IA de voz especializado en inteligencia multimodal en tiempo real, creado con los modelos espaciales estatales (SSM) de la empresa, una innovadora arquitectura de IA en la su equipo fundador fue pionero durante sus estudios de doctorado en Stanford.

Hoy en día, a Cartesia se le reconoce por su modelo empresarial de conversión de texto a voz líder en la industria para conversaciones en tiempo real, que ofrece una generación de voz con calidad humana con una latencia de solo 40 milisegundos. El modelo estrella de la empresa, Sonic, es dos o tres veces más rápido y permite a las empresas implementar agentes de voz ultrarrealistas en cualquier sector con una precisión perfecta en frases complejas.

Ahora nos entendemos

El mercado de la IA de voz se está expandiendo a un buen ritmo y la competencia se está intensificando. En el futuro, veremos una proliferación de nuevas plataformas de agentes de voz y API de modelos de voz a voz de varios proveedores, además de aumentar la confianza en la capacidad de los agentes de voz para completar tareas complejas de varios pasos en todos los mercados. Las expectativas de los clientes y los inversores son altas, pero con el apoyo y la estrategia adecuada, las startups tienen mucho que ganar en el ámbito de la IA de voz. La asociación con AWS puede ayudar a las empresas disruptivas a crear soluciones de IA de voz con tecnología de última generación, en una infraestructura diseñada para las cargas de trabajo de IA. Programas como el Acelerador de IA generativa de AWS le brindan a las startups acceso a una experiencia comprobada y, sobre todo, reducen el tiempo de comercialización y amplían el alcance de los clientes al mismo tiempo.

¿Qué le pareció este contenido?