Title: Learning Relation Alignment for Calibrated Cross-modal Retrieval

Author: Shuhuai Ren, Junyang Lin, Guangxiang Zhao, Rui Men, An Yang, Jingren Zhou, Xu Sun, Hongxia Yang

Source: ACL2021

Motivation

之前的自注意力机制只针对token层面的对齐,而忽略了对模态间token关系的对齐。

从图中可以分析得到图片模态序列的注意力权重的分布和文本模态的分布差异比较大,对于红色衬衫,图片更多地关注了无关的区域,而文本模态与之相比则更具有可解释性一些。

Method

  1. 基础结构:UNITER

  2. 新提出的指标:增加Intra-modal Self-attention Distance(ISD),通过transformer最后一层的注意力机制,计算token之间的注意力权重的对齐分数。能观察到这里的对齐分数与训练结果的召回率呈负相关(作者使用了皮尔逊相关系数来说明p=-0.6)。

    这里是ISDa的计算伪码,主要针对于模态间的两个自注意矩阵,使用的Flickr30K Entities具有图片区域到token的直接映射,因此这里将此直接作为ground truth,将所有实体按序号排起,然后从自注意力矩阵中获得相应的权重值(因为可能会出现一个实体有多个图片token或者多个文本token 的情况,所以这里还需要使用Ext和Cps操作,分别是抽取和合并)。最后使用对称的KL散度进行计算距离。

  3. 正则化训练方法:Inter-modal Alignment on Intra-modal Self-attentions (IAIS)

    由于普通的下游任务是不存在ground truth的文本实体-图片区域的对应信息的,ISDa不能被直接作为目标函数优化,本文为此提出了两种改进的办法

    Singular Alignment

    该算法需要先选择一个anchor模态(两种模态可以互为anchor模态),对于当前模态内两个token,通过跨模态自注意力矩阵分别得到与他们最相关的对方模态的两个token,后两个token之间的模态内注意力得分会构成原先两个模态的镜像的注意力得分,如此计算,可以得到当前模态模态内自注意力矩阵的镜像矩阵,最后用类似的KL散度方式约束两个矩阵的概率分布。

    Distributed Alignment

    为了能够充分利用自注意力矩阵

    这里把anchor模态的镜像的自注意力得分设置成了,两个跨模态自注意力矩阵中对应向量的点积。其他则同上