RNN 的根本瓶颈:隐状态 ht = f(ht-1, xt) 的序列依赖使得训练无法并行化,长序列梯度消失严重。
CNN 的局限:虽可并行但需要 O(n/k) 或 O(logk(n)) 层才能建立长距离依赖。
核心洞察:Self-Attention 将任意两个位置间的路径长度降至 O(1),同时完全可并行化。
Q = K = V 均来自上一层输出
Causal mask: position i 只能看 <i
缩放因子 1/√dk 的直觉:假设 q 和 k 各分量独立且均值 0、方差 1,则 q·k 方差为 dk。dk 越大,点积越大,softmax 进入饱和区导致梯度消失。除以 √dk 将方差归一化回 1。
h=8 头, dk=dv=dmodel/h=64。每个头关注不同的表征子空间,总计算量与单头全维度 attention 相当。
dff=2048 (inner), dmodel=512 (input/output)。等价于两个 kernel=1 的卷积。
关键性质:PEpos+k 可以表示为 PEpos 的线性函数,模型可学习相对位置关系。正弦版本允许外推到训练时未见过的更长序列。
| 类型 | Q 来源 | K/V 来源 | 位置 |
|---|---|---|---|
| Encoder Self-Attn | 上一 encoder 层 | 上一 encoder 层 | Encoder 每层 |
| Decoder Masked Self-Attn | 上一 decoder 层 | 上一 decoder 层 + mask | Decoder 每层 |
| Encoder-Decoder Cross-Attn | 上一 decoder 层 | Encoder 最终输出 | Decoder 每层 |
| Layer Type | Per-Layer | Sequential Ops | Max Path |
|---|---|---|---|
| Self-Attention | O(n²·d) | O(1) | O(1) |
| Recurrent | O(n·d²) | O(n) | O(n) |
| Convolutional | O(k·n·d²) | O(1) | O(logk(n)) |
| 参数 | Base Model | Big Model |
|---|---|---|
| N (layers) | 6 | 6 |
| dmodel | 512 | 1024 |
| dff | 2048 | 4096 |
| h (heads) | 8 | 16 |
| dk = dv | 64 | 64 |
| Pdrop | 0.1 | 0.3 |
| Training | 100K steps (12h, 8×P100) | 300K steps (3.5d, 8×P100) |
| Params | 65M | 213M |
| Task | Model | BLEU | Training Cost |
|---|---|---|---|
| EN-DE | Transformer (base) | 27.3 | 3.3 × 1018 FLOPs |
| Transformer (big) | 28.4 | 2.3 × 1019 FLOPs | |
| EN-FR | Transformer (big) | 41.8 | — |
| Previous SOTA (ensemble) | 41.29 | 1.2 × 1021 FLOPs | |
| Constituency Parsing | Transformer (4 layers, semi-sup) | 92.7 F1 (WSJ §23) | |
Transformer 是所有现代 LLM(GPT, BERT, LLaMA)的基础架构。理解 Self-Attention、Multi-Head Attention 和位置编码是理解 Agent 系统底层模型的必备知识。
论文中的 Encoder-Decoder 结构也直接影响了通信感知领域的序列建模方法。
| 类型 | 数量 | 示例 |
|---|---|---|
| Method | 7 | Transformer, Multi-Head Attention, Scaled Dot-Product Attention, ... |
| Concept | 7 | Self-Attention, Encoder-Decoder, Residual Connection, ... |
| Metric | 3 | BLEU, Perplexity, Training FLOPs |
| Dataset | 3 | WMT 2014 EN-DE, WMT 2014 EN-FR, Penn Treebank |
| Author | 8 | Vaswani, Shazeer, Parmar, ... |
| Relation | 35 | proposes, uses, improves, evaluated_by, ... |
交互式图谱: data/kg_visualization.html