아마존, GPT-4o 능가하는 실시간 음성 AI 모델 공개

2025-04-09 00:37:22

아마존닷컴(NASDAQ:AMZN)이 AI 기반 애플리케이션의 실시간 음성 상호작용을 혁신할 새로운 음성 기반 AI 모델 '아마존 노바 소닉'을 공개했다.

이 시스템은 음성 이해와 음성 생성을 하나의 통합 아키텍처로 구현해 각 작업을 개별적으로 처리하는 여러 독립 모델의 필요성을 제거했다.

노바 소닉은 인식, 해석, 음성 출력을 별도의 시스템으로 처리하는 기존의 다단계 방식을 단일 통합 프레임워크로 대체해 음성 처리를 간소화했다.

이 올인원 모델은 더욱 자연스럽고 생동감 있는 상호작용을 가능하게 한다. 아마존 베드록을 통해 양방향 스트리밍 API로 접근 가능한 이 기술은 의료, 여행, 호텔 등 다양한 산업 분야를 지원할 예정이다.

아마존에 따르면 노바 소닉은 억양, 리듬, 휴지 등 음성의 미묘한 요소를 포착해 인간 대화에 가까운 수준의 민감도로 응답할 수 있다.

실시간 대화 중단에도 적응해 문맥상 적절한 시점까지 응답을 보류할 수 있다. 이러한 대화 인식 능력은 더욱 생동감 있고 몰입도 높은 상호작용을 만들어내 고객 서비스와 AI 기반 지원 역할에 특히 효과적이다.

아마존 인공일반지능 수석부사장 로힛 프라사드는 "세계 최고의 개인 AI 비서인 알렉사의 발명부터 다양한 산업에서 사용되는 AWS 서비스인 커넥트, 렉스, 폴리의 개발까지, 아마존은 음성 기반 애플리케이션이 모든 고객의 삶을 더 나아지게 할 수 있다고 오랫동안 믿어왔다"고 말했다.

표준화된 산업 평가에서 노바 소닉은 OpenAI의 GPT-4o(실시간)와 구글의 제미니 플래시 2.0을 포함한 경쟁사들을 여러 부문에서 능가했다.

아마존에 따르면 노바 소닉은 커먼 이벌과 다국어 리브리스피치와 같은 데이터셋에서 남성과 여성의 미국식 영어 음성은 물론 영국식 영어에서도 더 높은 승률을 기록했다.

노바 소닉은 5개 주요 언어에서 음성 인식 결과를 제공하며, 단어 오류율 4.2%를 기록해 OpenAI의 동급 제품 대비 36% 이상 개선된 성능을 보였다.

또한 소음이 있는 실제 환경 테스트에서 경쟁사 대비 약 47% 우수한 성능을 보였다. 평균 응답 속도가 1초를 약간 상회하며, GPT-4o 대비 약 80% 저렴한 비용으로 경제성도 돋보인다.

아마존은 2월, 고객 서비스 개선부터 재고 관리까지 다양한 운영 영역에 걸쳐 약 1,000개의 생성형 AI 프로젝트가 진행 중이거나 이미 완성됐다고 밝혔다.

아마존은 올해 알파벳(750억 달러)과 마이크로소프트(800억 달러)와 같은 경쟁사들과 보조를 맞춰 약 1,000억 달러를 인공지능 이니셔티브에 투자하고 있다.

이러한 기술 기업들의 AI 주도권 경쟁은 중국 AI 스타트업 딥시크의 R1이 우수한 성능과 낮은 비용으로 주목을 받으면서 더욱 치열해졌다.

주가 동향
화요일 마지막 거래에서 AMZN 주가는 1.6% 상승한 178.07달러를 기록했다.

#아마존 닷컴

이 기사는 AI로 번역되어 일부 오류가 있을 수 있습니다.

이전기사 다음 기사

루시드, 주가 급등 임박했나

EU, 온라인 규제 강화...트럼프 행정부와 갈등 고조 조짐