自回归语言模型(Causal LM)

Mar 15, 2026

一句话总结

自回归语言模型从左到右逐个生成Token，每一步基于之前所有Token预测下一个Token的概率分布，是GPT系列和当前主流LLM的核心范式。

核心概念

数学形式：P(x₁,…,xₙ) = ∏P(xₜ

x₁,…,xₜ₋₁)，将联合概率分解为条件概率的乘积。训练时，利用因果掩码(Causal Mask)使得每个位置只能看到它之前的Token，但所有位置可以并行计算。生成时必须逐Token串行：采样或选择概率最高的Token，将其添加到序列中，作为下一步的输入。所有位置的Token都参与损失计算，训练效率高于BERT类模型(BERT只有15%的被掩盖Token参与损失)。这也是Decoder-only架构在大规模下胜出的原因之一。

为什么重要

自回归范式是当前几乎所有最强LLM(GPT-4、Claude、LLaMA、Qwen等)的基础。它的优势在于：(1)天然支持开放式文本生成；(2)训练目标简单统一——只有一个损失函数；(3)Few-shot/In-context Learning能力强；(4)通过自然语言Prompt即可适应各种任务，无需针对每个任务设计特殊结构。

实践要点

解码策略选择影响巨大：贪心搜索(Greedy)确定但单调；Beam Search质量高但多样性低；Top-k/Top-p采样配合Temperature可平衡质量与多样性；KV Cache是自回归推理的关键加速技术；Speculative Decoding用小模型预测+大模型验证来加速推理而不改变输出分布。

常见误区

误区一：自回归模型只能从左到右——训练目标确实是左到右，但模型通过Attention机制可以在上下文窗口内建模复杂的双向依赖。误区二：逐Token生成效率一定低——通过KV Cache、Speculative Decoding等优化，推理效率已大幅提升。误区三：自回归模型不擅长理解——GPT类模型在各种理解任务(分类、抽取、推理)上表现同样出色。