🔹 1. 输入向量
假设我们有四个输入:
a1,a2,a3,a4
这些可以理解成句子里的词向量,比如 "I", "love", "deep", "learning"。
🔹 2. 生成 Query 和 Key
对于 查询词 a1:
q1 = W^q a1
这就是 Query,表示“我要去问问题”。
对于 其他输入(比如 a2,a3,a4):k2 = W^k a2, k3 = W^k a3, k4 = W^k a4
这些是 Keys,表示“我的特征能不能回答查询的问题”。
🔹 3. 计算相关性(注意力分数)
接下来,用 点积 (inner-product) 计算 Query 和 Key 的相关性:
α1,2 = q1⋅k2, α1,3 = q1⋅k3, α1,4 = q1⋅k4
含义:
这些分数会通过 softmax 变成概率,作为注意力权重。
🔹 4. 生成输出
最后,把这些权重作用在 Value(通常和 Key 来自同一个输入向量变换):
b1 = α1,1 v1 + α1,2 v2 + α1,3 v3 + α1,4 v4