NeuralPS2020 발표, deepmind
2022-11-01기준
모델링 목적
모달리티 $\mathcal M : x=\{x_m\}, m \in \mathcal M$, 데이터를 모달리티 M에서 나온 객체집합으로 표기함
video $x_v \in \mathcal X_v$, audio $x_a \in \mathcal X_a$, text $x_t \in \mathcal X_t$
$f_m : \mathcal X_m \rightarrow \R^{d_m}$ - 모달리티 $m$에서 나온 $x_m$을 input으로 받아 $d_m$ 차원 representation 벡터로 mapping 해주는 parametrized modality specific backbone neural network.