作者
Xavier
精通javase,javeWeb,SpringBoot,RabbitMQ,SpringCloud,mybatis,docker,redis,SpringMVC等技术,精通python,js等语言。正在学习Agent的路上。相信技术为本。
深入剖析 Transformer 的核心机制——Self-Attention、多头注意力与位置编码。从 Vaswani 2017 的原始论文出发,理解为何它彻底重塑了整个 AI 领域。
2017 年 6 月,Google Brain 团队发表了《Attention Is All You Need》。这篇论文只有 15 页,却在此后几年内彻底重写了 NLP、CV、语音识别乃至蛋白质结构预测领域的规则。它的核心主张极为大胆:抛弃所有循环结构,只用注意力机制。


在 Transformer 之前,序列建模的标准范式是 RNN/LSTM。它们有一个根本性的缺陷:顺序计算。处理第 t 个 token 必须等第 t-1 个 token 完成,这使得训练极难并行化。
Self-Attention 的计算分三步:
其中 √d_k 是关键的缩放因子。当 d_k 较大时,点积的方差增大,softmax 会进入梯度极小的饱和区。除以 √d_k 使方差保持稳定。
"The dot products grow large in magnitude, pushing the softmax function into regions where it has extremely small gradients." —— Vaswani et al., 2017
单头注意力只能在一个表示子空间中捕捉关系。多头注意力(Multi-Head Attention)将 Q/K/V 分别投影到 h 个独立子空间,并行执行 h 次 Attention,最后拼接并线性变换。
不同的注意力头可以专注于不同类型的关系:句法依存、语义相似性、指代消解等。这种分工在大量可视化研究中得到了验证。
Transformer 对序列中所有位置的处理完全对称——它本身不知道 token 的顺序。为此,原始论文使用正弦/余弦函数注入位置信息:
PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))这种设计的优雅之处:对于固定偏移量 k,PE(pos+k) 可以表示为 PE(pos) 的线性函数,模型能轻松学习相对位置关系。
GPT 系列采用仅解码器(Decoder-only)架构,通过因果掩码(Causal Mask)实现自回归语言建模——每个 token 只能看到它之前的上下文,训练目标是最大化序列的联合概率。
规模定律(Scaling Laws) 的发现表明:在足够多的数据和计算资源下,模型性能随参数量的对数线性增长——这一发现成为了大语言模型竞赛的理论基础。