📄 Attention Is All You Need

📅 2017 🏛️ NeurIPS 2017 📎 arXiv: 1706.03762
👤 Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin
transformer self-attention encoder-decoder machine-translation foundation-model

一句话总结： 提出 Transformer 架构——首个完全基于注意力机制的序列转换模型，摒弃 RNN/CNN 的循环/卷积结构，在机器翻译任务上以更少的训练成本达到 SOTA。

🎯 解决的问题

RNN 的根本瓶颈：隐状态 h_t = f(h_t-1, x_t) 的序列依赖使得训练无法并行化，长序列梯度消失严重。

CNN 的局限：虽可并行但需要 O(n/k) 或 O(log_k(n)) 层才能建立长距离依赖。

核心洞察：Self-Attention 将任意两个位置间的路径长度降至 O(1)，同时完全可并行化。

🏆 核心贡献

Transformer 架构 — 首个纯注意力模型，用 Self-Attention 替代 RNN/CNN
Scaled Dot-Product Attention — 1/√d_k 缩放防止 softmax 梯度消失
Multi-Head Attention — h=8 并行注意力头，关注不同子空间的表征
正弦位置编码 — sin/cos 编码位置信息，支持序列长度外推
SOTA 结果 — EN-DE 28.4 BLEU (超越所有 ensemble +2)，EN-FR 41.8 BLEU

🏗️ 模型架构深度解析

Encoder (×6 层)

Multi-Head Self-Attention
Position-wise FFN
每个子层：残差连接 + LayerNorm

Q = K = V 均来自上一层输出

Decoder (×6 层)

Masked Multi-Head Self-Attention
Cross-Attention (Q←decoder, K/V←encoder)
Position-wise FFN

Causal mask: position i 只能看 <i

核心公式

Eq.1 — Scaled Dot-Product Attention:
Attention(Q, K, V) = softmax(QK^T / √d_k) · V

缩放因子 1/√d_k 的直觉：假设 q 和 k 各分量独立且均值 0、方差 1，则 q·k 方差为 d_k。d_k 越大，点积越大，softmax 进入饱和区导致梯度消失。除以 √d_k 将方差归一化回 1。

Eq.2 — Multi-Head Attention:
MultiHead(Q,K,V) = Concat(head₁, ..., head_h) W^O
where head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

h=8 头, d_k=d_v=d_model/h=64。每个头关注不同的表征子空间，总计算量与单头全维度 attention 相当。

Eq.3 — Position-wise FFN:
FFN(x) = max(0, xW₁ + b₁)W₂ + b₂

d_ff=2048 (inner), d_model=512 (input/output)。等价于两个 kernel=1 的卷积。

Positional Encoding:
PE_{(pos, 2i)} = sin(pos / 10000^2i/d_model)
PE_{(pos, 2i+1)} = cos(pos / 10000^2i/d_model)

关键性质：PE_pos+k 可以表示为 PE_pos 的线性函数，模型可学习相对位置关系。正弦版本允许外推到训练时未见过的更长序列。

三种 Attention 的使用方式

类型	Q 来源	K/V 来源	位置
Encoder Self-Attn	上一 encoder 层	上一 encoder 层	Encoder 每层
Decoder Masked Self-Attn	上一 decoder 层	上一 decoder 层 + mask	Decoder 每层
Encoder-Decoder Cross-Attn	上一 decoder 层	Encoder 最终输出	Decoder 每层

计算复杂度对比

Layer Type	Per-Layer	Sequential Ops	Max Path
Self-Attention	O(n²·d)	O(1)	O(1)
Recurrent	O(n·d²)	O(n)	O(n)
Convolutional	O(k·n·d²)	O(1)	O(log_k(n))

⚙️ 训练配置

参数	Base Model	Big Model
N (layers)	6	6
d_model	512	1024
d_ff	2048	4096
h (heads)	8	16
d_k = d_v	64	64
P_drop	0.1	0.3
Training	100K steps (12h, 8×P100)	300K steps (3.5d, 8×P100)
Params	65M	213M

📊 关键实验结果

Task	Model	BLEU	Training Cost
EN-DE	Transformer (base)	27.3	3.3 × 10¹⁸ FLOPs
EN-DE	Transformer (big)	28.4	2.3 × 10¹⁹ FLOPs
EN-FR	Transformer (big)	41.8	—
EN-FR	Previous SOTA (ensemble)	41.29	1.2 × 10²¹ FLOPs
Constituency Parsing	Transformer (4 layers, semi-sup)	92.7 F1 (WSJ §23)

💪 优势

彻底解决 RNN 的序列瓶颈，任意位置间 O(1) 路径长度
高度可并行化：训练速度比 RNN 快数量级
Multi-Head Attention 允许不同 head 学习不同语义/句法模式（附录可视化证实）
模型极简：核心仅 3 个公式 (Attention, FFN, LR schedule)
实验充分：Table 3 系统 ablation 验证每个组件贡献

⚠️ 局限性

Self-Attention 复杂度 O(n²·d)，超长序列 (n >> d) 不友好 → 后续: Linformer, Longformer, Flash Attention
位置编码是外加的而非内生的 → 后续: RoPE, ALiBi
实验仅覆盖 NMT 和句法分析 → 后续: BERT (理解), GPT (生成) 证明通用性

🔗 与我的研究的关联

Transformer 是所有现代 LLM（GPT, BERT, LLaMA）的基础架构。理解 Self-Attention、Multi-Head Attention 和位置编码是理解 Agent 系统底层模型的必备知识。

论文中的 Encoder-Decoder 结构也直接影响了通信感知领域的序列建模方法。

🕸️ 知识图谱录入

类型	数量	示例
Method	7	Transformer, Multi-Head Attention, Scaled Dot-Product Attention, ...
Concept	7	Self-Attention, Encoder-Decoder, Residual Connection, ...
Metric	3	BLEU, Perplexity, Training FLOPs
Dataset	3	WMT 2014 EN-DE, WMT 2014 EN-FR, Penn Treebank
Author	8	Vaswani, Shazeer, Parmar, ...
Relation	35	proposes, uses, improves, evaluated_by, ...

交互式图谱: data/kg_visualization.html