自回归语言模型(Causal LM)


一句话总结

自回归语言模型从左到右逐个生成Token,每一步基于之前所有Token预测下一个Token的概率分布,是GPT系列和当前主流LLM的核心范式。

核心概念

数学形式:P(x₁,…,xₙ) = ∏P(xₜ x₁,…,xₜ₋₁),将联合概率分解为条件概率的乘积。训练时,利用因果掩码(Causal Mask)使得每个位置只能看到它之前的Token,但所有位置可以并行计算。生成时必须逐Token串行:采样或选择概率最高的Token,将其添加到序列中,作为下一步的输入。所有位置的Token都参与损失计算,训练效率高于BERT类模型(BERT只有15%的被掩盖Token参与损失)。这也是Decoder-only架构在大规模下胜出的原因之一。

为什么重要

自回归范式是当前几乎所有最强LLM(GPT-4、Claude、LLaMA、Qwen等)的基础。它的优势在于:(1)天然支持开放式文本生成;(2)训练目标简单统一——只有一个损失函数;(3)Few-shot/In-context Learning能力强;(4)通过自然语言Prompt即可适应各种任务,无需针对每个任务设计特殊结构。

实践要点

解码策略选择影响巨大:贪心搜索(Greedy)确定但单调;Beam Search质量高但多样性低;Top-k/Top-p采样配合Temperature可平衡质量与多样性;KV Cache是自回归推理的关键加速技术;Speculative Decoding用小模型预测+大模型验证来加速推理而不改变输出分布。

常见误区

误区一:自回归模型只能从左到右——训练目标确实是左到右,但模型通过Attention机制可以在上下文窗口内建模复杂的双向依赖。误区二:逐Token生成效率一定低——通过KV Cache、Speculative Decoding等优化,推理效率已大幅提升。误区三:自回归模型不擅长理解——GPT类模型在各种理解任务(分类、抽取、推理)上表现同样出色。