Skip to content

AI Academic Notes

Main Navigation Deep Learning CV NLP SIN Math

Theme

Sidebar Navigation

开始

知识库说明

写作规范

Deep Learning

表示学习

扫描笔记

Computer Vision

Vision Transformer

Week 9: Detection & Segmentation

扫描笔记

NLP

Transformer 注意力

扫描笔记

Social Information Network

课程索引

扫描笔记

Math

线性代数索引

On this page

Transformer 注意力

自注意力把序列中每个 token 的表示更新为其他 token 表示的加权和。

Scaled Dot-Product Attention

缩放因子用来控制 logits 的方差，避免 softmax 过早饱和。

多头注意力

多头注意力把表示投影到多个子空间：

然后拼接所有 head。更多线性映射背景见线性代数。

Pager

Previous page扫描笔记

Next page扫描笔记

Static academic notes built with VitePress and KaTeX.

Copyright © 2026