누룽찌 데스크

Hume.ai의 Octave: 감정을 이해하는 AI 음성 합성의 새 시대

디지털새싹 2025. 2. 27. 11:29

Hume.ai의 Octave: 감정을 이해하는 AI 음성 합성의 새 시대

사진 = Image3

"오늘은 슬픈 목소리로 이야기해줘..." - AI가 정말 이런 감정을 이해하고 표현할 수 있을까요?

 

이제 가능합니다. 오늘은 텍스트의 감정을 이해하고 표현하는 AI 음성 합성 기술의 혁신을 이끌고 있는 Hume.ai의 Octave*에 대해 알아보고자 합니다. ElevenLabs보다 우수한 성능으로 주목받는 이 기술은 AI 음성의 미래를 어떻게 바꾸고 있을까요?

* Omni-capable text and voice engine


최첨단 AI 음성 기술, 왜 주목해야 할까?

AI가 단순히 텍스트를 읽는 것을 넘어 감정과 맥락을 이해하고 표현할 수 있다면 어떨까요?

오디오북이 전문 성우의 연기처럼 들리고, 게임 캐릭터가 상황에 맞는 감정으로 대사를 말하며, 고객 서비스 AI가 공감을 표현하는 세상이 열리고 있습니다. Hume.ai의 Octave는 블라인드 테스트에서 ElevenLabs보다 오디오 품질에서 71.6%의 압도적인 선호도를 보이며 AI 음성 합성의 새로운 기준을 제시했습니다. 이것이 바로 Hume.ai와 그들의 기술이 주목받는 이유입니다.

 

Hume.ai: 감정을 이해하는 AI 개발에 집중하다

 

2021년 감정 과학 및 심리학 전문가 Alan Cowen이 설립한 Hume.ai는 인공지능과 감정 과학을 결합하여 인간의 감정을 이해하고 기술에 통합하는 미션을 가진 회사입니다. 이들의 목표는 명확합니다 - AI가 인간의 목표와 정서적 웰빙을 지원하도록 설계하는 것.

현재까지 6,590만 달러(약 870억 원) 이상의 투자를 유치한 Hume.ai는 EQT Ventures, Comcast Ventures, LG테크놀로지벤처스 등 유수의 투자자들로부터 지원을 받으며 성장하고 있습니다.

Octave: 감정을 이해하는 혁신적인 TTS 시스템

Octave는 세계 최초로 대규모 언어 모델(LLM) 기반 TTS 시스템으로, 단순히 텍스트를 소리로 변환하는 것이 아닌 텍스트의 맥락과 감정을 분석하여 음성을 생성합니다.

 

 

<영상 : Hume AI 유튜브 채널, Octave  : The first TTS powered by a language model>

 

Octave의 주요 특징

1. 맥락 이해형 TTS

기존 TTS 기술이 단순히 텍스트를 읽는 데 그쳤다면, Octave는 텍스트의 의미와 맥락을 분석하여 적절한 억양, 강조, 감정 표현을 자동으로 생성합니다. 질문문은 끝을 올리고, 흥분된 내용은 빠르게, 중요한 내용은 강조하는 식으로 사람과 같은 자연스러운 음성을 구현합니다.

2. Voice Design: 상상하는 목소리를 현실로

"활기차고 젊으며 약간 걸걸한 여성 목소리"와 같은 텍스트 프롬프트만으로 원하는 음성을 생성할 수 있습니다. 더 놀라운 점은 경매사, 스포츠 중계, 판타지 내레이션 등 특정 상황에 맞는 목소리를 요청하면 적합한 톤과 스타일로 음성을 만들어낸다는 것입니다.

3. Acting Instructions: 실시간 감정 제어

이미 생성된 목소리에 "속삭이듯 말해줘", "흥분된 목소리로!", "슬프게 말해줘"와 같은 acting 지시를 통해 감정과 스타일을 실시간으로 변경할 수 있습니다. 이는 같은 목소리로도 다양한 감정 표현이 가능함을 의미합니다.

Octave vs ElevenLabs: 감정 표현에서의 우위

Hume.ai가 주관한 블라인드 테스트에서 Octave는 ElevenLabs의 Voice Design과 비교해 다음과 같은 결과를 보였습니다:

  • 오디오 품질 선호도: 71.6% (Octave 승)
  • 자연스러움: 51.7% (Octave 승)
  • 지정된 스타일/감정 구현: 57.7% (Octave 승)

이 결과는 Octave가 현재 AI 음성 합성 기술 중 감정 표현과 품질 면에서 우수하다고 보여집니다.


<사진=Hume.ai 홈페이지>

Hume.ai의 다양한 기술과 제품

Octave 외에도 Hume.ai는 다양한 감정 기반 AI 기술을 제공합니다:

1. EVI (Empathic Voice Interface)

공감형 음성 인터페이스로, 사용자 정의 가능한 감정적 음성을 생성하고 대화형 AI에 통합하여 자연스러운 상호작용을 제공합니다.

2. Voice Control

사용자 정의 음성을 생성하고 10가지 이상의 감정 차원을 조정할 수 있는 기능을 제공합니다.

3. 감정 분석 및 표현 도구

텍스트, 음성, 영상, 이미지에서 인간의 감정을 분석하고 표현하는 다중 모달 AI 기술을 개발하고 있습니다.

사진=Image3

 

<실제 활용 사례>

Hume.ai의 기술은 다양한 분야에서 혁신적인 변화를 이끌고 있습니다:

  • 오디오북 제작: 감정과 맥락을 이해한 몰입감 높은 나레이션 생성
  • 게임 및 엔터테인먼트: 캐릭터의 개성과 감정을 표현하는 생동감 있는 음성 구현
  • 고객 서비스: 공감 능력을 갖춘 AI 음성으로 고객 경험 향상
  • 콘텐츠 제작: 팟캐스트, 유튜브 영상 등에 감정이 풍부한 음성 활용
  • 접근성 개선: 시각장애인을 위한 더 자연스럽고 감정적인 음성 리더 개발

감정을 이해하는 AI 음성이 나오면 영화 Her의 서비스가 현실화 되지 않을까?

 

<향후 계획 및 한계점>

Hume.ai는 계속해서 기술을 발전시키고 있습니다:

  • Voice Cloning: 5초 길이의 음성 샘플만으로 목소리를 복제하는 기술 출시 예정
  • 다국어 지원 확대: 현재 영어와 일부 스페인어를 지원하며, 향후 더 많은 언어 지원 계획
  • 성능 향상: 감정 표현의 정확성과 자연스러움을 더욱 개선 중

다만, 아직 한국어 지원은 미흡한 상태로, 이는 앞으로 해결해야 할 과제 중 하나라고 합니다.

 

Hume.ai의 혁신적인 음성 합성 기술을 직접 체험해보고 싶다면:


AI 음성의 미래를 여는 감정 지능

Hume.ai의 Octave는 단순한 음성 합성을 넘어 감정을 이해하고 표현하는 AI의 가능성을 보여줍니다. 이제 AI는 "무엇을 말하는가"뿐만 아니라 "어떻게 말하는가"까지 고려할 수 있게 되었습니다. 공감형 AI 기술의 발전은 인간과 AI 간의 상호작용을 더욱 자연스럽고 풍부하게 만들며, 다양한 산업에서의 혁신을 이끌어낼 것입니다. AI의 기술 발전 속도가 앞으로 AI와 인간의 관계를 어떻게 변화시킬지 주목할 가치가 있습니다.

사진=Image3

 

Hume.ai 사례를 통해  AI 기술 발전이 다양한 산업에서 어떻게 활용될 수 있는지 알 수 있습니다. 디지털새싹은 빠르게 변화하는 디지털 기술을 학생들에게 소개하고, 실습과 체험을 통해 미래의 AI 전문가로 성장할 수 있는 기회를 제공합니다. 이를 통해 학생들은 AI 기술의 잠재력을 이해하고, 이를 윤리적이고 창의적으로 활용할 수 있는 역량을 갖추게 될 것 입니다.

 

※ 본 원고는 생성형 AI로 작성되었으며, 최신 AI 기술을 소개하는 목적으로 작성되었습니다. 

 

 

 

[픽션대담] 일론 머스크와 스티브 잡스가 논하는 디지털새싹 인재상

본 글은 재미를 위해서 생성형 AI에게디지털새싹 인재상 정립 및 핵심역량 모델링 결과보고서를 학습시킨 뒤 일론머스크와 스티브잡스의 관점에서 해석한 내용을 AI를 활용하여 픽션 대담형식

www.xn--2z1bz5tdvbiwlf4j.com