Transformers Weight Tying 权重共享

权重共享

在模型的不同部分之间共享参数或权重。这减少了参数的数量，提高了计算效率，加快了训练速度，并在神经机器翻译、语言建模和计算机视觉等各种任务中取得了更好的性能。

Transformer 权重共享

在语言模型中，将输入嵌入（input embedding）和输出嵌入（output embedding）进行权重共享（tying）。也就是说，模型在处理输入词和预测输出词时，使用相同的嵌入矩阵。这种方法既减少了模型参数，又提高了模型的性能。

输入嵌入（Input Embedding）：当模型接收到一个词作为输入时，它通过查找嵌入矩阵，将这个词转换成一个向量表示。
输出嵌入（Output Embedding）：当模型需要预测下一个词时，它会输出一个隐藏状态向量，然后通过一个线性变换（使用输出嵌入矩阵）将其映射到词汇表大小的维度，再通过 softmax 得到每个词的概率。

直观理解

可以把嵌入矩阵想象成一个词典，每个词都有一个对应的向量定义。当我们共享输入和输出的嵌入矩阵时，输入词和输出词在同一个“词典”中查找和表示。这意味着模型在“理解”词和“生成”词时，使用的是相同的语义空间。

Layer Sharing 层共享

在神经网络中，让多个不同的位置或组件共享相同的层（包括层的参数）。也就是说，不同的部分使用同一组权重和偏置，从而减少模型的总参数量。

应用场景

作用