Paper: Attention Is All You Need
Authors: Vaswani et al., 2017
arxiv: 1706.03762
一句话概括
提出完全基于注意力机制的Transformer架构,彻底取代了RNN和CNN在序列建模中的主导地位,奠定了现代AI的基础架构。
核心思想
通过自注意力机制让序列中每个位置都能直接关注所有其他位置,实现全局信息的并行计算。多头注意力允许模型同时在不同的表示子空间中捕获信息,配合正弦位置编码保留序列顺序。编码器-解码器结构通过交叉注意力实现序列到序列的映射。整个架构的核心是Query-Key-Value的注意力计算范式,简洁而强大。
关键创新
自注意力机制实现O(1)的序列距离依赖,任意位置可以直接交互;多头注意力并行捕获不同层面的关系模式;正弦位置编码无需学习参数即可注入位置信息;残差连接和层归一化保障深层网络训练的稳定性和梯度流通。
深远影响
开创了现代深度学习的Transformer时代,成为BERT、GPT等所有大语言模型的基础架构。其并行计算特性完美契合GPU硬件,使得模型规模扩展成为可能。注意力机制的思想迅速扩展到了视觉、语音、蛋白质结构预测等多个领域,成为通用的深度学习组件。
启发与思考
好的架构设计应该同时考虑表达能力和计算效率。Transformer的成功告诉我们:并行化能力比序列归纳偏置更重要,让数据和规模来学习模式比硬编码先验假设更有效。有时候简洁优雅的数学结构就是最好的归纳偏置。