权重共享
在模型的不同部分之间共享参数或权重。这减少了参数的数量,提高了计算效率,加快了训练速度,并在神经机器翻译、语言建模和计算机视觉等各种任务中取得了更好的性能。
Transformer 权重共享
在语言模型中,将输入嵌入(input embedding)和输出嵌入(output embedding)进行权重共享(tying)。也就是说,模型在处理输入词和预测输出词时,使用相同的嵌入矩阵。这种方法既减少了模型参数,又提高了模型的性能。
直观理解
可以把嵌入矩阵想象成一个词典,每个词都有一个对应的向量定义。当我们共享输入和输出的嵌入矩阵时,输入词和输出词在同一个“词典”中查找和表示。这意味着模型在“理解”词和“生成”词时,使用的是相同的语义空间。
Layer Sharing 层共享
在神经网络中,让多个不同的位置或组件共享相同的层(包括层的参数)。也就是说,不同的部分使用同一组权重和偏置,从而减少模型的总参数量。
应用场景
作用