Paper: Attention Is All You Need

Feb 23, 2026

Authors: Vaswani et al., 2017

arxiv: 1706.03762

一句话概括

提出完全基于注意力机制的Transformer架构，彻底取代了RNN和CNN在序列建模中的主导地位，奠定了现代AI的基础架构。

核心思想

通过自注意力机制让序列中每个位置都能直接关注所有其他位置，实现全局信息的并行计算。多头注意力允许模型同时在不同的表示子空间中捕获信息，配合正弦位置编码保留序列顺序。编码器-解码器结构通过交叉注意力实现序列到序列的映射。整个架构的核心是Query-Key-Value的注意力计算范式，简洁而强大。

关键创新

自注意力机制实现O(1)的序列距离依赖，任意位置可以直接交互；多头注意力并行捕获不同层面的关系模式；正弦位置编码无需学习参数即可注入位置信息；残差连接和层归一化保障深层网络训练的稳定性和梯度流通。

深远影响

开创了现代深度学习的Transformer时代，成为BERT、GPT等所有大语言模型的基础架构。其并行计算特性完美契合GPU硬件，使得模型规模扩展成为可能。注意力机制的思想迅速扩展到了视觉、语音、蛋白质结构预测等多个领域，成为通用的深度学习组件。

启发与思考

好的架构设计应该同时考虑表达能力和计算效率。Transformer的成功告诉我们：并行化能力比序列归纳偏置更重要，让数据和规模来学习模式比硬编码先验假设更有效。有时候简洁优雅的数学结构就是最好的归纳偏置。