KAIST, 실시간 음성 AI 가능케 할 ‘스피치SSM’ 세계 첫 개발

KAIST 가 인간처럼 자연스럽고 일관된 장시간 음성 생성을 가능케 하는 차세대 음성 언어 모델 ‘스피치SSM(SpeechSSM)’을 개발했다.
이번 성과는 장시간 콘텐츠에 최적화된 음성 AI 기술의 한계를 극복하며, 향후 24시간 대화형 AI비서 구현에 한 걸음 다가섰다는 평가를 받고 있다.
KAIST 전기및전자공학부 노용만 교수 연구팀의 박세진 박사과정생은 최근 장시간 음성 언어 생성이 가능한 ‘스피치SSM’을 세계 최초로 구현했다고 3일 밝혔다.
이 연구는 오는 7월 국제 머신러닝 학회(ICML) 2025에서 구두 발표 논문으로 채택돼, 전 세계적으로 약 1% 내외에만 허락되는 학술적 성과로 주목받고 있다.
스피치SSM은 기존 음성 언어 모델(SLM, Spoken Language Model)이 갖는 ‘짧은 음성 생성’ 한계를 극복하기 위해 개발된 모델이다.
SLM은 음성을 텍스트로 변환하지 않고 직접 처리하며, 음향적 특성까지 이해해 자연스러운 음성을 생성할 수 있다.
그러나 기존 모델들은 음성의 해상도를 높일수록 메모리 사용량과 연산 부담이 증가해 장시간 생성 시 문맥 유지가 어렵다는 구조적 한계를 안고 있었다.
연구팀은 이를 해결하기 위해 어텐션 레이어(Attention Layer)와 순환 레이어(Recurrent Layer)를 교차 배치한 ‘하이브리드 상태공간 모델(Hybrid SSM)’을 제안했다.
이 구조는 최근 정보에 집중하면서도 전체 문맥을 기억한다.
장시간 음성 생성 시에도 인물과 사건 흐름이 일관되도록 유지하는 것이 특징이다.
또한 스피치SSM은 음성을 짧은 윈도우 단위로 나눠 독립적으로 처리한 후, 이를 다시 연결하는 방식으로 구성돼 무한 길이의 음성 시퀀스도 효율적으로 처리할 수 있다.
이와 함께 음성 합성에는 비자기회귀 방식의 ‘사운드스톰(SoundStorm)’ 모델을 활용해 빠른 속도로 고품질 음성을 생성했다.
기존에는 약 10초 내외의 짧은 음성 생성이 대부분이었다.
이번 연구에서는 KAIST가 자체 구축한 16분 분량의 장시간 데이터셋 ‘LibriSpeech-Long’을 통해 테스트를 진행했다.
평가 기준도 기존 문법 오류 중심의 PPL(Perplexity)을 넘어서, 문맥 유지 정도를 확인하는 SC-L(Semantic Coherence over Time)과 시간 흐름에 따른 자연스러움을 평가하는 N-MOS-T 등 새로운 지표를 제안해 평가 정확도를 높였다.
결과적으로 스피치SSM은 16분 이상 이어지는 음성에서도 특정 인물, 주제, 사건을 지속적으로 유지한다.
자연스러운 전개와 음성 품질을 동시에 충족한 것으로 나타났다.
이는 기존 음성 생성 모델들이 장시간 콘텐츠 생성 중 반복되거나 일관성을 잃는 문제를 극복한 획기적인 진전이다.
박세진 박사과정생은 “기존 음성 언어 모델은 장시간 생성에 한계가 있어, 실제 인간이 사용하도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 것이 목표였다”고 언급했다.
이어 “이번 연구 성과를 통해 긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어, 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”이라고 강조했다.
배동현 (grace8366@sabanamedia.com) 기사제보