작성자 - 정광직

Abstract

디지털 커뮤니케이션이 활발해지는 최근 트렌드에 맞춰 논문에서는 실제 입술 움직임도 동기화 할 수 있는 파이프라인을 제안했습니다. 먼저 현재 존재하는 알고리즘들을 사용하여 speech to speech 번역을 하고, 입술의 움직임을 동기화 할 수 있는 LipGAN을 제안했습니다. LipGAN은 영상과 번역된 오디오를 합성하여 실제 번역된 오디오를 말하는 것과 같은 영상을 만들어냅니다.

위 그림은 전체 파이프 라인의 개요를 나타낸 것입니다. English 영상이 있습니다. 이를 Existing Translation 알고리즘을 활용하여 오디오를 번역합니다. 다음 LipGAN을 사용하여 Face-to-Face Translation을 진행합니다.

Speech to Speech Translation

위 그림은 Speech-to-Speech Translation의 파이프라인 입니다.

  1. Language L1의 오디오는 DeepSpeech 2를 통해 Text로 변환
  2. 변환된 Text는 Trasnformer 기반의 인도 언어 모델로 번역
  3. 번역된 Text는 DeepVoice 3 로 Speech로 다시 변환되고, CycleGAN을 사용하여 사용자의 목소리 스타일을 입힘

조금 더 자세한 과정의 위 그림과 같습니다.