DataScience
article thumbnail
728x90

글을 입력하면 텍스트를 목소리로 읽어주는 기술로 보편적으로 음성합성(text to speech)의 약자인 TTS로 불립니다.

최근에는 딥러닝 기반의 음성 합성 기술이 발전하면서 딥러닝 모델을 사용하여 자연스러운 음성을 생성할 수 있습니다.

TTS의 역사

1. Articulatory Synthesis (조음 합성)
  인간의 성대 모델(입술, 혀, 성대)과 그 안에서 일어나는 조음 과정을 기반으로 음성을 합성하는 컴퓨터 기술, 혀, 턱, 입술과 같은 음성 조음기의 위치를 수정하는 것으로 공기의 흐름을 디지털 방식으로 시뮬레이션하여 만들어집니다.

 

2. formant Synthesis (포만트 합성)
  음성 샘플을 사용하지 않고 주파수 변조나 Physical Modelling과 같은 기술을 이용하여 소리를 생성하는 기술입니다. 사람의 소리는 음성 기관에서 소리를 필터링 해서 만들어내는데, 여러 필터의 조합을 사용하여 합성 음성을 얻을 수 있습니다. 자연스러운 사람의 목소리라기보다는 인공적이고 로봇처럼 들리는 소리를 만들어 냅니다. 이 기술은 자연스러움보다는 매우 빠른 속도로 음성을 합성하여 전달하는데 장점이 있습니다.

 

3. Concatenative Synthesis (연결 합성)
  스피치 조각을 만들어놓고 연결해서 음성을 합성해 내는 기술입니다. 예를들어 0~9까지 각 숫자의 목소리를 녹음해놓으면 전화번호를 녹음된 목소리를 연결하여 불러줄 수 있습니다. 단점으로는 자연스러운 소리를 합성하기 위해 엄청난 용량의 DB가 확보되어야 하고, 다양한 목소리를 만들기 위해서는 그만큼 많은 시간이 소요됩니다. 비용과 용량에 비해 단어와 단어 간의 자연스러운 연결에서 아직까지는 한계가 명확한 상태입니다.

 

4. Statistical Parametric Speech Synthesis (통계 파라미터 합성)
  Hidden Markov Model (HMM) 기반 합성은, 통계 파라미터 합성이라고도 불립니다. 음성의 주파수 스펙트럼, 기본 주파수, 지속시간 등이 HMM에 의해 동시에 모델링 되어 '최대우도 추정법'로 파라미터를 추측하여 음성을 생성해내는 기술이라고 합니다. text analysis(입력 텍스트를 언어학적 특징 추출), acoustic model(음향특징 추출), vocoder(음향특징->음성으로 변경) 크게 3가지로 나눌 수 있습니다.

 

5. Neural TTS
  녹음된 음성을 인공지능으로 학습시킨후 가장 자연스러운 인간의 목소리를 합성해 내는 기술입니다. 신경망기반 모델들은 HMM을 대체하여 'acoustic model' 부분에 쓰이게 됩니다. SPSS의 3가지 부분을 단순화 시키는 방향으로 발전중입니다. 아래 그림 0->4로 발전중이라고 보시면 됩니다.

  • Acoustic Model: 입력으로 character(텍스트)혹은 phoneme(음소; 발음단위)을 받아서 어떠한 acoustic feature를 추출하는 모델. acoustic feature는 mel-spectrogram을 의미합니다
  • Vocoder: 입력으로 mel-spectrogram 및 유사한 스펙트로그램을 받아서 실제 오디오를 생성하는 모델.
  • Fully End-to-End TTS Model: 입력으로 character혹은 phoneme을 받아서 오디오를 바로 생성하는 모델.

'음성 합성' 카테고리의 다른 글

TTS 응용 사례  (44) 2023.08.05
Text to Speech (TTS) 각종 모델  (291) 2023.07.21
profile

DataScience

@Ninestar

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!