Bagaimana konten ini?
AI Telah Menemukan Suaranya, dan Startups Mendengarkan: Cara Disruptor Dapat Memanfaatkan Salah Satu Pasar Berkembang Terbaik Tahun 2025.
Model penalaran telah mendominasi wacana seputar AI dalam beberapa tahun terakhir, tetapi pada tahun 2025, kami telah menyaksikan langkah modalitas baru menjadi sorotan—suara. Belum lama ini, konsep berinteraksi dengan teknologi melalui ucapan hanya ada dalam novel fiksi ilmiah alih-alih kehidupan nyata—saat itu, ponsel Anda adalah sesuatu yang Anda gunakan untuk berbicara, bukan untuk hal lain. Hal ini mulai berubah pada tahun 2010-an dengan keberhasilan produk seperti Amazon Alexa, Siri, Google Assistant, dan Bixby, yang membantu sebagian besar masyarakat umum merasa nyaman mengobrol dengan perangkat mereka.
Melewati perlombaan bidang AI yang kami hadapi saat ini, dan perbaikan performa dan latensi telah memungkinkan potensi aplikasi AI suara meroket. Mulai dari pusat panggilan, hingga perhotelan, layanan kesehatan, serta pembelajaran bahasa—kemungkinan baru tampaknya terus bermunculan setiap harinya. Hal semacam itu tidak luput dari perhatian, serta flywheel minat investor, inovasi startup, dan perubahan perilaku konsumen telah mempersiapkan AI suara untuk membuat beberapa gejolak serius dalam beberapa bulan dan tahun mendatang.
AI Percakapan—Tren yang Layak Dibahas
Dahulu, orang percaya bahwa ponsel menarik roh jahat. Mereka sudah melupakannya—dan sekarang, kita semua membawanya di saku kita. Demikian pula, makin populernya asisten suara di rumah dan di perangkat telah membantu menormalkan interaksi suara dengan teknologi serta bahkan membentuk perilaku konsumen—terutama di kalangan generasi muda. Menurut Laporan Future Shopper dari VML, 46 persen konsumen global mengatakan bahwa mereka memiliki asisten cerdas pada tahun 2023, meningkat menjadi 49 persen pada tahun 2024. 23 persen konsumen global mengatakan bahwa mereka secara teratur menggunakan asisten cerdas yang diaktifkan suara untuk melakukan pembelian, sementara 19 persen lainnya pernah menggunakannya untuk memesan produk pada masa lalu.
Seiring dengan pergeseran kebiasaan konsumen, kemajuan terbaru dalam teknologi inti yang mendasari suara membuka pintu bagi penciptaan nilai pada masa depan. Tahun 2024 menandai terobosan dalam sistem ucapan yang diatur yang menggabungkan ucapan-ke-teks, model bahasa besar, dan teks-ke-ucapan untuk mendengarkan, bernalar, dan merespons dalam percakapan seperti manusia, tetapi hal itu baru permulaan. Model ucapan-ke-ucapan khusus yang mampu melewati kebutuhan untuk representasi teks yang khas dari jalur AI suara tradisional memasuki pasar—bayangkan mode suara dari ChatGPT. Kombinasikan hal ini dengan munculnya AI agentik secara lebih umum, serta suara telah dengan cepat bergerak melampaui hal baru bagi pengguna menjadi modalitas yang layak untuk solusi tingkat korporasi.
Aktivitas Startup yang Mengungkapkan Banyak Hal
Ketika pasar AI suara terus berkembang, startups bergegas untuk mempertaruhkan klaim mereka. Di Y Combinator saja, pangsa setiap batch yang membangun dengan teknologi suara telah tumbuh dari 13 persen di W24, menjadi 14 persen di S24, menjadi 22 persen di F24. Disruptor yang berniat menangkap peluang AI Suara perlu memperhatikan apa yang dicari oleh investor.
Menurut Andreesson Horowitz (a16z), investor—dan pelanggan—terutama tertarik pada solusi AI suara yang menargetkan industri tempat ponsel biasanya digunakan untuk demo pelanggan, lebih efektif karena peraturan, atau memberikan laju keberhasilan yang lebih tinggi dibandingkan cara alternatif untuk terlibat dengan pelanggan. Industri bernilai tinggi meliputi logistik, penagihan utang, dan layanan kesehatan, dengan korporasi memprioritaskan solusi yang dapat memberikan hasil yang jelas serta terukur. Mereka juga mengharapkan ROI yang mengesankan (kami berbicara pengurangan biaya sebesar 30-50 persen) serta integrasi yang lancar dengan sistem yang suda ada seperti Suara melalui Protokol Internet (VoIP).
Disruptor yang mengembangkan solusi AI suara perlu mengatasi berbagai tantangan untuk menarik investasi dan menciptakan diferensiasi pasar. Asisten suara mengumpulkan dan memproses data pribadi, serta bisnis (dan pelanggan mereka) tidak akan berkompromi dengan privasi dan kepatuhan terhadap peraturan. Persaingan juga meningkat, serta startups perlu fokus untuk membedakan diri mereka di pasar yang makin ramai. Artinya, mereka harus bersaing dengan masuknya produk AI suara yang berfokus horizontal dan vertikal, serta platform developer yang memungkinkan tim internal untuk membangun agen suara mereka sendiri. Hal ini menjadikan kecepatan masuk ke pasar menjadi penting.
Solusi suara agentik dapat diskalakan dengan cepat setelah diimplementasikan, tetapi para disruptor perlu mengatasi rintangan ketika berhadapan dengan korporasi yang lebih tradisional—di sinilah hasil yang terukur dan ROI yang mengesankan menjadi sangat penting. Ada juga pertanyaan tentang monetisasi. Seperti yang dicatat a16z, sebagian besar produk suara awalnya dihargai per menit. Namun, seiring dengan penurunan biaya model yang mendasarinya, para kompetitor mulai saling bersaing. Ke depannya, strategi monetisasi cenderung menggabungkan biaya platform dengan komponen berbasis penggunaan. Untuk mengatasi tantangan ini, startups perlu bekerja sama dengan partner teknologi yang andal.
Lebih dari Dua Dekade Merintis Teknologi AI Suara
Amazon Web Services (AWS) memiliki rekam jejak inovasi yang panjang dalam AI suara, dimulai dengan peluncuran Amazon Alexa pada tahun 2014, yang membantu merintis interaksi suara arus utama. Sejak itu, AWS terus memajukan bidang ini dengan teknologi seperti Amazon Transcribe, Amazon Polly, dan Amazon Lex. Pada tahun 2024, kita menyaksikan peluncuran Amazon Alexa+, yang mengintegrasikan AI generatif untuk memungkinkan percakapan kontekstual yang lebih alami.
Saat ini, AWS menawarkan model mutakhir seperti Amazon Nova Sonic, sekarang tersedia di Amazon Bedrock, yang mendorong batasan interaksi suara seperti manusia secara waktu nyata. Amazon Nova Sonic dapat digunakan di berbagai aplikasi, termasuk otomatisasi panggilan dukungan pelanggan, pemasaran outbound, asisten dan agen pribadi yang didukung suara, serta pendidikan interaktif dan pembelajaran bahasa. AWS juga menawarkan silikon hemat biaya yang dibuat untuk beban kerja AI dengan chip AWS Trainium serta AWS Inferentia.
Batu Loncatan bagi Para Pemimpin Pasar Masa Depan
Selain teknologi, AWS juga menyediakan keahlian dan program strategis untuk membantu startups membangun lebih cepat dan lebih cerdas. Misalnya, program Akselerator AI Generatif AWS dirancang untuk mendukung serta mendorong gelombang disruptor AI berikutnya dengan kesempatan untuk belajar dari partner program seperti NVIDIA dan Mistral AI. Program 10 minggu ini merupakan bagian dari komitmen AWS yang lebih luas sebesar 230 juta USD untuk membantu startups mengembangkan aplikasi AI generatif dengan cepat di seluruh dunia. Startups yang berpartisipasi dapat menerima hingga 1 juta USD, selain panduan teknis dan komersial, serta akses ke jutaan pelanggan aktif melalui AWS Marketplace.
Akselerator AI Generatif AWS telah membantu startups inovatif menjadi pemimpin di bidang AI suara. Contohnya Cartesia, penyedia platform AI suara yang mengkhususkan dalam kecerdasan multimodal secara waktu nyata yang dibuat menggunakan State Space Model (SSM) perusahaan, sebuah arsitektur AI inovatif yang awalnya dipelopori oleh tim pendirinya selama studi PhD mereka di Stanford.
Saat ini, Cartesia dikenal karena model teks-ke-ucapan korporasi terkemuka di industri untuk percakapan waktu nyata, yang memberikan pembuatan suara berkualitas manusia hanya dengan latensi 40 milidetik. Model unggulan perusahaan, Sonic, dua hingga tiga kali lebih cepat dibandingkan alternatif lain dan memungkinkan bisnis untuk melakukan deployment agen suara ultrarealistis di industri apa pun dengan akurasi sempurna pada frasa yang kompleks.
Sekarang Kami Membahasnya
Pasar AI suara berkembang pesat dan persaingan memanas. Ke depannya, kita akan melihat proliferasi API model ucapan-ke-ucapan baru dan platform agen suara dari beberapa penyedia, serta meningkatnya kepercayaan pada kemampuan agen suara untuk menyelesaikan tugas multilangkah yang kompleks di semua vertikal. Harapan pelanggan serta investor tinggi, tetapi dengan strategi dan dukungan yang tepat, startups memiliki banyak keuntungan di bidang AI suara. Berpartner dengan AWS dapat membantu para disruptor membangun solusi AI suara dengan teknologi mutakhir, pada infrastruktur yang dibangun untuk beban kerja AI. Program seperti Akselerator AI Generatif AWS juga dapat memberi startups akses ke keahlian yang telah terbukti dan—yang terpenting—mengurangi waktu masuk pasar sambil memperluas jangkauan pelanggan.
Bagaimana konten ini?