Zum Hauptinhalt springenAWS Startups

KI hat ihre Stimme gefunden und Startups hören zu: Wie Disruptors von einem der wichtigsten Schwellenländer des Jahres 2025 profitieren können.

Wie war dieser Inhalt?

Reasoning-Modelle haben in den letzten Jahren den Diskurs über KI dominiert, aber 2025 rückte eine neue Modalität ins Rampenlicht – die Sprache. Es ist noch nicht lange her, dass das Konzept der Kommunikation mit Technologie durch Sprache eher Science-Fiction-Romanen als dem wirklichen Leben vorbehalten war – damals sprach man über das Telefon, nicht mit dem Telefon. Der Wandel begann in den 2010er Jahren mit dem Erfolg von Produkten wie Amazon Alexa, Siri, Google Assistant und Bixby, die großen Teilen der Bevölkerung halfen, bequem mit ihren Geräten zu chatten.

Springen wir zum KI-Wettrennen, das wir heute erleben: Verbesserungen bei Leistung und Latenz haben zu einem rasanten Anstieg der potenziellen Anwendungen von Sprach-KI geführt. Von Callcentern über Gastgewerbe, Gesundheitswesen bis hin zum Erlernen von Sprachen – täglich scheinen sich neue Möglichkeiten zu eröffnen. Solche Dinge bleiben nicht unbemerkt, und ein Schwungrad des Investoreninteresses, der Innovationen von Startups und des sich ändernden Verbraucherverhaltens hat dazu geführt, dass Sprach-KI in den kommenden Monaten und Jahren einige ernstzunehmende Erschütterungen auslösen wird.

Conversational AI – ein Trend, über den man sprechen sollte

Früher glaubten die Leute, dass Telefone böse Geister anzogen. Das ist zum Glück vorbei – und heute tragen wir alle eines mit uns herum. In ähnlicher Weise hat die wachsende Beliebtheit von Sprachassistenten für zu Hause und auf Geräten dazu beigetragen, die Sprachinteraktion mithilfe von Technologie zu normalisieren und sogar das Verbraucherverhalten zu beeinflussen – insbesondere bei jüngeren Generationen. Laut dem Future Shopper Report von VML gaben 46 Prozent der weltweiten Verbraucher an, 2023 einen intelligenten Assistenten zu verwenden, 2024 waren es 49 Prozent. 23 Prozent der weltweiten Verbraucher geben an, regelmäßig sprachgesteuerte intelligente Assistenten einszusetzen, um Einkäufe zu tätigen, weitere 19 Prozent haben sie in der Vergangenheit genutzt, um Produkte zu bestellen.

Neben den sich ändernden Verbrauchergewohnheiten öffnen die jüngsten Fortschritte bei den Kerntechnologien, die der Sprachkommunikation zugrunde liegen, die Tür für zukünftige Wertschöpfung. 2024 markierte einen Durchbruch bei orchestrierten Sprachsystemen, bei denen Sprache-zu-Text , große Sprachmodelle und Text-zu-Sprache kombiniert wurden, um in menschenähnlichen Gesprächen zuzuhören, zu argumentieren und zu reagieren. Spezielle Sprache-zu-Sprache-Modelle, die in der Lage sind, die für traditionelle Sprach-KI-Pipelines typische Notwendigkeit der Textdarstellung zu umgehen, kamen auf den Markt – denken Sie an den Sprachmodus von ChatGPT. Kombiniert man dies mit dem Aufkommen der agentenbasierten KI im Allgemeinen, hat sich Sprache schnell von einer Neuheit für Benutzer zu einer praktikablen Modalität für Unternehmenslösungen entwickelt.

Startup-Aktivität, die Bände spricht

Da der Markt für Sprach-KI weiter expandiert, beeilen sich Startups, ihren Anspruch geltend zu machen. Allein bei Y Combinator ist der Anteil jedes Batch-Buildings mit Sprachtechnologie von 13 Prozent in W24 auf 14 Prozent in S24 und 22 Prozent in F24 gestiegen. Disruptors, die die Chancen der Sprach-KI nutzen wollen, müssen sich darauf einstellen, wonach Anleger suchen.

Laut Andreesson Horowitz (a16z) sind Investoren – und Kunden – in erster Linie an Sprach-KI-Lösungen interessiert, die auf Branchen abzielen, in denen das Telefon in der Regel für Kundendemos verwendet wird, aufgrund von Vorschriften effektiver ist oder eine höhere Erfolgsquote bietet als alternative Möglichkeiten, mit Kunden in Kontakt zu treten. Zu den Branchen mit hohem Mehrwert gehören Logistik, Inkasso und Gesundheitswesen. Unternehmen legen Wert auf Lösungen, die klare, messbare Ergebnisse liefern können. Sie erwarten auch einen eindrucksvollen ROI (wir sprechen von einer Kostenreduzierung von 30 bis 50 Prozent) sowie eine nahtlose Integration in bestehende Systeme wie Voice over Internet Protocol (VoIP).

Disruptors, die Sprach-KI-Lösungen entwickeln, müssen sich zahlreichen Herausforderungen stellen, um Investitionen anzuziehen und für eine Marktdifferenzierung zu sorgen. Sprachassistenten sammeln und verarbeiten personenbezogene Daten und Unternehmen (und ihre Kunden) gehen keine Kompromisse ein, wenn es um Datenschutz und die Einhaltung gesetzlicher Vorschriften geht. Auch der Wettbewerb verschärft sich zunehmend, und Start-ups müssen sich darauf konzentrieren, sich in einem immer stärker überfüllten Markt von der Konkurrenz abzuheben. Das bedeutet, mit einem Zustrom sowohl horizontaler als auch vertikal ausgerichteter Sprach-KI-Produkte sowie Entwicklerplattformen zu konkurrieren, die es internen Teams ermöglichen, ihre eigenen Sprachagenten aufzubauen. Aus diesem Grund ist die Geschwindigkeit der Markteinführung von entscheidender Bedeutung.

Agentische Sprachlösungen können nach der Implementierung schnell skaliert werden, aber Disruptors müssen möglicherweise Hürden überwinden, wenn sie es mit traditionelleren Unternehmen zu tun haben – hier sind messbare Ergebnisse und ein beeindruckender ROI wirklich wichtig. Es stellt sich auch die Frage der Monetarisierung. Wie a16z feststellt, wurde der Preis für die meisten Sprachprodukte ursprünglich pro Minute berechnet. Da die Kosten der zugrunde liegenden Modelle jedoch gesunken sind, haben die Wettbewerber begonnen, sich gegenseitig zu unterbieten. In Zukunft werden Monetarisierungsstrategien wahrscheinlich Plattformgebühren mit nutzungsabhängigen Komponenten kombinieren. Um diese Herausforderungen zu bewältigen, müssen Startups mit zuverlässigen Technologiepartnern zusammenarbeiten.

Über zwei Jahrzehnte wegweisender Sprach-KI-Technologie

Amazon Web Services (AWS) kann auf eine lange Erfolgsbilanz im Bereich der Sprach-KI zurückblicken, angefangen mit der Einführung von Amazon Alexa im Jahr 2014, das Pionierarbeit bei der herkömmlichen Sprachinteraktion leistete. Seitdem hat AWS den Bereich mit Technologien wie Amazon Transcribe, Amazon Polly und Amazon Lex kontinuierlich weiterentwickelt. 2024 wurde Amazon Alexa+, das generative KI integriert, um natürlichere, kontextbezogenere Gespräche zu ermöglichen.

Heute bietet AWS hochmoderne Modelle wie Amazon Nova Sonic, das jetzt in Amazon Bedrock verfügbar ist und die Grenzen menschlicher Sprachinteraktionen in Echtzeit erweitert. Amazon Nova Sonic kann in einer Vielzahl von Anwendungen eingesetzt werden, darunter die Automatisierung von Kundendienstanrufen, Outbound-Marketing, sprachgestützte persönliche Assistenten und Agenten sowie interaktiver Unterricht und das Erlernen von Sprachen. AWS bietet auch kostensparende Halbleiter an, die für KI-Workloads mit AWS-Trainium- und AWS-Inferentia-Chips entwickelt wurden.

Ein Sprungbrett für zukünftige Marktführer

Neben der Technologie bietet AWS auch strategisches Fachwissen und Programme, um Startups dabei zu helfen, schneller und intelligenter zu entwickeln. So wurde beispielsweise das AWS-Generative-AI-Accelerator-Programm entwickelt, um die nächste Welle von KI-Disruptors zu unterstützen und voranzubringen. Es bietet die Möglichkeit, von Programmpartnern wie NVIDIA und Mistral AI zu lernen. Das 10-wöchige Programm ist Teil eines umfassenderen Engagements von AWS in Höhe von 230 Millionen USD um Startups weltweit bei der schnellen Entwicklung generativer KI-Anwendungen zu unterstützen. Teilnehmende Startups können zusätzlich zu technischer und kommerzieller Beratung und Zugang zu Millionen von aktiven Kunden über den AWS Marketplace bis zu 1 Million USD erhalten.

Der AWS Generative AI Accelerator hat innovativen Startups bereits dabei geholfen, Marktführer im Bereich Sprach-KI zu werden. Nehmen wir Cartesia, einen Anbieter von Sprach-KI-Plattformen, der sich auf multimodale Intelligenz in Echtzeit spezialisiert hat, die mithilfe der State Space Models (SSMs) des Unternehmens entwickelt wurde, einer bahnbrechenden KI-Architektur, die ursprünglich vom Gründerteam während seines Doktorstudiums in Stanford entwickelt wurde.

Heute ist Cartesia für sein branchenführendes Text-zu-Sprache-Modell für Gespräche in Echtzeit bekannt, das Sprachgenerierung in menschlicher Qualität mit einer Latenz von nur 40 Millisekunden bietet. Das Vorzeigemodell des Unternehmens, Sonic, ist zwei- bis dreimal schneller als Alternativen und ermöglicht es Unternehmen, ultrarealistische Sprachagenten in allen Branchen einzusetzen, die komplexe Phrasen perfekt wiedergeben.

Das klingt schon besser

Der Markt für Sprach-KI wächst rasant und der Wettbewerb verschärft sich. In Zukunft werden wir eine Vielzahl neuer APIs und Plattformen für Sprachassistenten verschiedener Anbieter beobachten. Außerdem wird das Vertrauen in die Fähigkeit von Sprachdienstleistern zunehmen, komplexe, mehrstufige Aufgaben in allen Branchen zu erledigen. Die Erwartungen von Kunden und Investoren sind hoch, aber mit der richtigen Strategie und Unterstützung können Startups im Bereich Sprach-KI viel gewinnen. Die Partnerschaft mit AWS kann Disruptors dabei helfen, Sprach-KI-Lösungen mit modernster Technologie auf einer Infrastruktur zu entwickeln, die für KI-Workloads konzipiert ist. Programme wie der AWS Generative AI Accelerator können Startups auch Zugang zu bewährtem Fachwissen verschaffen und – was entscheidend ist – die Markteinführungszeit verkürzen und gleichzeitig die Kundenreichweite erhöhen.

Wie war dieser Inhalt?