메인 콘텐츠로 건너뛰기AWS Startups

AI 시대의 음성 혁신, 그리고 스타트업이 주목하는 이유: 2025년 유망 시장 중 하나에서 혁신 기업이 기회를 잡는 방법

이 콘텐츠는 어떠셨나요?

추론 모델은 최근 몇 년 동안 AI에 대한 담론을 지배해 왔지만, 2025년에는 음성이라는 새로운 양식이 주목을 받게 되었습니다. 음성을 통해 기술을 접한다는 개념은 불과 얼마 전까지만 해도 실생활이 아닌 공상 과학 소설에만 국한된 것이었습니다. 당시만 해도 휴대전화는 통화 수단이었지 우리가 말을 거는 대상이 아니었습니다. 2010년대부터 Amazon Alexa, Siri, Google Assistant, Bixby와 같은 제품이 성공하면서 상황이 바뀌기 시작했는데, 이를 통해 상당수의 일반 고객들이 기기로 편안하게 채팅할 수 있게 되었습니다.

오늘날 우리가 살아가고 있는 AI 경쟁 시대를 되돌아보면, 성능과 지연 시간의 향상 덕분에 음성 AI의 잠재적 활용 분야가 폭발적으로 확대되었습니다. 콜센터는 물론 숙박, 의료, 언어 학습까지, 매일같이 새로운 가능성이 열리고 있습니다. 이러한 흐름은 쉽게 지나칠 수 없습니다. 투자자의 관심, 스타트업의 혁신, 변화하는 소비자 행동이 맞물리며, 음성 AI는 앞으로 몇 개월, 내지는 몇 년 내로 시장에 강력한 파장을 일으킬 준비를 마쳤습니다.

대화형 AI - 이야기해 볼 만한 트렌드

사람들은 전화기가 악령을 끌어들인다고 믿었습니다. 하지만 그런 시절은 지나고 이제는 모두들 주머니에 전화기를 넣고 다니게 되었습니다. 이와 마찬가지로, 집에서나 기기 내에서 사용하는 음성 어시스턴트의 인기가 높아지면서 음성 기반 기술과의 상호 작용이 점점 일상화되었고, 특히 젊은 세대를 중심으로 소비자 행동에도 영향을 미치게 되었습니다. VML의 미래 쇼핑객 보고서에 따르면, 2023년에는 전 세계 소비자의 46%가 스마트 어시스턴트를 보유하고 있다고 답했으며, 2024년에는 이 수치가 49%로 증가한 것으로 나타났습니다. 또한 전 세계 소비자의 23%는 음성 인식 스마트 어시스턴트를 이용해 정기적으로 물건을 구매한다고 응답했으며, 추가로 19%는 과거에 한 번 이상 이를 통해 제품을 주문한 경험이 있다고 밝힌 것으로 나타났습니다.

변화하는 소비자 습관과 더불어, 음성 기술을 뒷받침하는 핵심 기술의 최근 발전은 미래의 가치 창출 가능성을 열어가고 있습니다. 2024년은 음성-텍스트, 대규모 언어 모델, 텍스트-음성을 결합하여 사람처럼 듣고 추론하며 자연스러운 대화를 주고받는 오케스트레이션된 음성 시스템이 획기적으로 발전했지만, 이는 시작에 불과했습니다. 기존 음성 AI 파이프라인에서 필수적이던 텍스트 변환 과정을 거치지 않는 전용 음성-음성 모델이 시장에 등장했습니다. 바로 ChatGPT의 음성 모드를 예로 들 수 있습니다. 여기에 에이전틱 AI까지 더해지면서 음성은 사용자의 참신함에서 벗어나 엔터프라이즈급 솔루션을 위한 실행 가능한 방식으로 빠르게 변화하고 있습니다.

많은 것을 말해주는 스타트업 활동

음성 AI 시장이 계속 확장됨에 따라 스타트업은 자사의 주장을 펼치기 위해 서두르고 있습니다. Y Combinator에서만 음성 기술이 적용된 각 배치 구축의 점유율이 W24의 13%에서 S24의 14%로, F24의 22%로 증가했습니다. 음성 AI 기회를 잡으려는 혁신 기업은 투자자가 무엇을 찾고 있는지를 파악해야 합니다.

Andreesson Horowitz(a16z)에 따르면 투자자와 고객은 주로 전화를 고객 데모용으로 사용하거나, 규제로 인해 더 효과적이거나, 다른 고객 참여 방법보다 성공률이 높은 산업을 대상으로 하는 음성 AI 솔루션에 관심이 있는 것으로 나타났습니다. 고부가가치 산업에는 물류, 채권 추심, 의료 등이 포함되며, 엔터프라이즈는 명확하고 측정 가능한 결과를 제공할 수 있는 솔루션을 우선시합니다. 또한 엔터프라이즈는 인상적인 투자수익률(ROI), 즉 30~50%의 비용 절감 효과와 함께 음성 인터넷 프로토콜(VoIP)과 같은 기존 시스템과의 원활한 통합도 기대하고 있습니다.

음성 AI 솔루션을 개발하는 혁신 기업은 투자를 유치하고 시장 차별화를 창출하기 위해 여러 문제를 해결해야 합니다. 음성 어시스턴트는 개인 데이터를 수집하고 처리하며, 비즈니스와 고객은 모두 개인 정보 보호 및 규정 준수에 대해 타협하지 않습니다. 경쟁 역시 치열해지면서, 스타트업은 점점 포화 상태가 되어 가는 시장에서 자사만의 차별점을 만드는 데 집중하지 않을 수 없게 되었습니다. 이는 내부 팀이 자체 음성 에이전트를 개발할 수 있도록 지원하는 개발자 플랫폼뿐 아니라, 수평적/수직적으로 특화된 음성 AI 제품의 급증을 두고 경쟁해야 함을 의미합니다. 따라서 시장 진입 속도는 그 어느 때보다도 중요해졌습니다.

에이전트 음성 솔루션은 일단 구현되면 빠르게 확장할 수 있지만, 기존 엔터프라이즈를 상대할 때는 장애물을 극복해야 하므로 측정 가능한 성과와 인상적인 ROI가 대단히 중요합니다. 물론, 수익화 문제도 빼놓을 수 없습니다. a16z가 지적했듯이, 대부분의 음성 제품은 초기에 분당 요금이 책정되었습니다. 하지만 기본 모델의 비용이 낮아지면서 경쟁업체끼리 서로 가격을 낮추기 시작했습니다. 앞으로의 수익화 전략은 플랫폼 사용료와 사용량 기반 요소를 결합하는 방식이 될 가능성이 높습니다. 이러한 과제를 극복하기 위해 스타트업은 신뢰할 수 있는 기술 파트너와 협력해야 합니다.

20년 이상 선구적인 음성 AI 기술 개발

Amazon Web Services(AWS)는 2014년에 Amazon Alexa를 출시하며 음성 AI 분야에서 오랜 혁신의 역사를 쌓아왔으며, 이를 통해 대중적인 음성 상호 작용을 개척하는 데 기여했습니다. 그 이후로 AWS는 Amazon Transcribe, Amazon PollyAmazon Lex와 같은 기술을 통해 이 분야를 지속적으로 발전시켜 왔고 2024년에는 Amazon Alexa+를 출시하면서 생성형 AI를 통합하여 보다 자연스럽고 상황에 적합한 대화가 가능하게 만들었습니다.

현재 AWS는 Amazon Nova Sonic(현재 Amazon Bedrock에서 이용 가능)과 같은 최첨단 모델을 제공하고 있습니다. 이 모델은 인간과 유사한 실시간 음성 상호 작용의 경계를 넓혀줍니다. Amazon Nova Sonic은 고객 지원 통화 자동화, 아웃바운드 마케팅, 음성 지원 개인 어시스턴트 및 에이전트, 대화형 교육 및 언어 학습을 비롯하여 광범위한 분야에서 활용할 수 있습니다. 또한 AWS는 AWS TrainiumAWS Inferentia 칩을 통해 AI 워크로드용으로 구축된 비용 절감형 실리콘을 제공합니다.

미래의 시장 리더를 위한 발판

AWS는 기술 외에도 스타트업이 더 빠르고 스마트하게 구축할 수 있도록 지원하는 전략적 전문 지식과 프로그램도 제공합니다. 예를 들어 AWS Generative AI Accelerator 프로그램은 NVIDIA 및 Mistral AI와 같은 프로그램 파트너로부터 배울 수 있는 기회를 통해 차세대 AI 혁신 기업을 지원하고 성장시킬 수 있도록 설계되었습니다. 10주간의 이 프로그램은 스타트업이 생성형 AI 분야를 전 세계적으로 빠르게 개발할 수 있도록 지원하기 위해 AWS가 2억 3천만 달러를 추가로 지원하기로 한 금액의 일부입니다. 참여하는 스타트업은 기술 및 상업적 지도 외에도 최대 1백만 달러를 받을 수 있으며 AWS Marketplace를 통한 수백만 명의 활성 고객에 대한 접근 기회까지 제공받을 수 있습니다.

AWS Generative AI Accelerator는 이미 혁신적인 스타트업이 음성 AI 분야의 리더가 될 수 있도록 지원하고 있습니다. 예를 들어, Cartesia를 살펴보겠습니다. 이 회사는 실시간 멀티모달 인텔리전스를 제공하는 음성 AI 플랫폼 제공업체로, 자체 개발한 상태 공간 모델(SSM)을 기반으로 구축되었습니다. 이 획기적인 AI 아키텍처는 Cartesia 창립 멤버들이 스탠퍼드 박사 과정 중에 처음으로 개척한 기술입니다.

오늘날 Cartesia는 업계 최고 수준의 엔터프라이즈용 실시간 텍스트-음성 모델로 인정받고 있으며, 단 40밀리초의 지연 시간으로 사람과도 같은 수준의 자연스러운 음성 생성이 가능합니다. 이 회사의 주력 모델인 Sonic은 다른 모델보다 2~3배 더 빠르며 복잡한 문구도 완벽하게 인식해 비즈니스가 업계 전반에 걸쳐 초현실적인 음성 에이전트를 배포할 수 있도록 지원합니다.

이제야 말이 통하는군!

음성 AI 시장은 빠른 속도로 확장되고 있으며 경쟁은 치열해지고 있습니다. 앞으로 여러 공급업체에서 새로운 음성-음성 변환 모델 API와 음성 에이전트 플랫폼이 급증할 뿐만 아니라 모든 업종에서 복잡한 다단계 작업을 완료할 수 있는 음성 에이전트의 능력에 대한 신뢰가 높아질 것입니다. 고객과 투자자의 기대치는 높지만 올바른 전략과 지원이 있다면 스타트업은 음성 AI 분야에서 많은 것을 얻을 수 있습니다. AWS와의 파트너십으로 혁신 기업이 AI 워크로드용으로 빌드된 인프라에서 최첨단 기술을 갖춘 음성 AI 솔루션을 구축하는 데 도움이 될 수 있습니다. 또한 AWS Generative AI Accelerator와 같은 프로그램을 통해 스타트업은 검증된 전문 지식을 활용할 수 있고, 무엇보다 시장 출시 시간을 단축하는 동시에 고객 도달 범위를 넓힐 수 있습니다.

이 콘텐츠는 어떠셨나요?