Self-Supervised MultiModal Versatile Networks

NeuralPS2020 발표, deepmind

2022-11-01기준

2022-11-01기준

Abstract

모델링 목적

  1. Video, Audio, Text 3개의 모달리티를 모두 input으로 받을 수 있어야 한다.
  2. 모달리티 각각의 특성, 특히 텍스트에 비해 오디오와 비디오는 좀더 fine-grained(continuous?)하기때문에 각각의 특성을 고려해야 한다.
  3. 각각 따로 training되더라도 쉽게 비교가 되야한다.
  4. 효율적으로 dynamic videos나 static images에 적용될 수 있어야 한다.

Contributions

Notations