작성자 - 정광직
디지털 커뮤니케이션이 활발해지는 최근 트렌드에 맞춰 논문에서는 실제 입술 움직임도 동기화 할 수 있는 파이프라인을 제안했습니다. 먼저 현재 존재하는 알고리즘들을 사용하여 speech to speech 번역을 하고, 입술의 움직임을 동기화 할 수 있는 LipGAN을 제안했습니다. LipGAN은 영상과 번역된 오디오를 합성하여 실제 번역된 오디오를 말하는 것과 같은 영상을 만들어냅니다.

위 그림은 전체 파이프 라인의 개요를 나타낸 것입니다. English 영상이 있습니다. 이를 Existing Translation 알고리즘을 활용하여 오디오를 번역합니다. 다음 LipGAN을 사용하여 Face-to-Face Translation을 진행합니다.

위 그림은 Speech-to-Speech Translation의 파이프라인 입니다.

조금 더 자세한 과정의 위 그림과 같습니다.