自注意力机制的核心公式:Query–Key–Value (QKV) 模型

Screenshot 2025-09-05 at 2.55.46 PM.png

🔹 1. 输入向量

假设我们有四个输入:

a1,a2,a3,a4

这些可以理解成句子里的词向量,比如 "I", "love", "deep", "learning"。

🔹 2. 生成 Query 和 Key

🔹 3. 计算相关性(注意力分数)

接下来,用 点积 (inner-product) 计算 Query 和 Key 的相关性:

α1,2 = q1⋅k2, α1,3 = q1⋅k3, α1,4 = q1⋅k4

含义:

这些分数会通过 softmax 变成概率,作为注意力权重。

🔹 4. 生成输出

最后,把这些权重作用在 Value(通常和 Key 来自同一个输入向量变换):

b1 = α1,1 v1 + α1,2 v2 + α1,3 v3 + α1,4 v4