Skip to content

Transformer 注意力

自注意力把序列中每个 token 的表示更新为其他 token 表示的加权和。

Scaled Dot-Product Attention

\operatorname{Attention}(Q, K, V) = \operatorname{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V

缩放因子 dk\sqrt{d_k} 用来控制 logits 的方差,避免 softmax 过早饱和。

多头注意力

多头注意力把表示投影到多个子空间:

\operatorname{head}_i = \operatorname{Attention}(QW_i^Q, KW_i^K, VW_i^V)

然后拼接所有 head。更多线性映射背景见 线性代数

Static academic notes built with VitePress and KaTeX.