权重共享

在模型的不同部分之间共享参数或权重。这减少了参数的数量,提高了计算效率,加快了训练速度,并在神经机器翻译、语言建模和计算机视觉等各种任务中取得了更好的性能。

Transformer 权重共享

在语言模型中,将输入嵌入(input embedding)和输出嵌入(output embedding)进行权重共享(tying)。也就是说,模型在处理输入词和预测输出词时,使用相同的嵌入矩阵。这种方法既减少了模型参数,又提高了模型的性能。

直观理解

可以把嵌入矩阵想象成一个词典,每个词都有一个对应的向量定义。当我们共享输入和输出的嵌入矩阵时,输入词和输出词在同一个“词典”中查找和表示。这意味着模型在“理解”词和“生成”词时,使用的是相同的语义空间。

Layer Sharing 层共享

在神经网络中,让多个不同的位置或组件共享相同的层(包括层的参数)。也就是说,不同的部分使用同一组权重和偏置,从而减少模型的总参数量。

应用场景

作用