自注意力机制

Screenshot 2025-09-05 at 2.55.46 PM.png

🔹 1. 输入向量

假设我们有四个输入：

a1,a2,a3,a4

这些可以理解成句子里的词向量，比如 "I", "love", "deep", "learning"。

🔹 2. 生成 Query 和 Key

对于查询词 a1：

q1 = W^q a1

这就是 Query，表示“我要去问问题”。
对于其他输入（比如 a2,a3,a4）：k2 = W^k a2, k3 = W^k a3, k4 = W^k a4

这些是 Keys，表示“我的特征能不能回答查询的问题”。

🔹 3. 计算相关性（注意力分数）

接下来，用 点积 (inner-product) 计算 Query 和 Key 的相关性：

α1,2 = q1⋅k2, α1,3 = q1⋅k3, α1,4 = q1⋅k4

含义：

这些分数会通过 softmax 变成概率，作为注意力权重。

🔹 4. 生成输出

最后，把这些权重作用在 Value（通常和 Key 来自同一个输入向量变换）：

b1 = α1,1 v1 + α1,2 v2 + α1,3 v3 + α1,4 v4