Theme
Transformer 注意力
自注意力把序列中每个 token 的表示更新为其他 token 表示的加权和。
Scaled Dot-Product Attention
\operatorname{Attention}(Q, K, V) = \operatorname{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V缩放因子 用来控制 logits 的方差,避免 softmax 过早饱和。
多头注意力
多头注意力把表示投影到多个子空间:
\operatorname{head}_i = \operatorname{Attention}(QW_i^Q, KW_i^K, VW_i^V)然后拼接所有 head。更多线性映射背景见 线性代数。