Self-Supervised MultiModal Versatile Networks

NeuralPS2020 발표, deepmind

2022-11-01기준

2022-11-01기준

Abstract

모델링 목적

Video, Audio, Text 3개의 모달리티를 모두 input으로 받을 수 있어야 한다.
모달리티 각각의 특성, 특히 텍스트에 비해 오디오와 비디오는 좀더 fine-grained(continuous?)하기때문에 각각의 특성을 고려해야 한다.
각각 따로 training되더라도 쉽게 비교가 되야한다.
효율적으로 dynamic videos나 static images에 적용될 수 있어야 한다.

Contributions

different modality embedding 그래프 구조를 MMV로 실험하면서, audio, visual, language streams의 multimodal representations 에 대해 효과적인 self-supervised training 방법을 제안했다.
MMV video network가 효과적으로 static image를 input으로 받는 방법인 deflation approach를 도입했다.
multiple image, video, audio and video-text downstream tasks에서 학습된 representation의 우월성을 보였다.

Notations

모달리티 $\mathcal M : x=\{x_m\}, m \in \mathcal M$, 데이터를 모달리티 M에서 나온 객체집합으로 표기함
video $x_v \in \mathcal X_v$, audio $x_a \in \mathcal X_a$, text $x_t \in \mathcal X_t$
$f_m : \mathcal X_m \rightarrow \R^{d_m}$ - 모달리티 $m$에서 나온 $x_m$을 input으로 받아 $d_m$ 차원 representation 벡터로 mapping 해주는 parametrized modality specific backbone neural network.