预训练(Pre-training)概述


一句话总结

预训练是在海量无标注文本上通过自监督学习训练语言模型的过程,让模型获得通用的语言理解和知识,为后续微调和对齐奠定基础。

核心概念

预训练是LLM三阶段训练(预训练→SFT→RLHF)的第一步,也是成本最高的一步。核心思想是自监督学习——从数据本身构造训练信号,无需人工标注。对于自回归模型(GPT类),训练目标是预测下一个Token;对于掩码模型(BERT类),训练目标是恢复被遮盖的Token。训练数据通常为数万亿Token的互联网文本(网页、书籍、代码、论文等)。预训练产出的模型称为基座模型(Base Model)或Foundation Model,具备语言生成能力和广泛的世界知识,但还不擅长遵循指令。

为什么重要

预训练是LLM能力的根基——模型的知识面、推理能力、语言能力主要在预训练阶段获得。后续的SFT和RLHF更多是激活和对齐这些能力,而非创造新能力。预训练的质量和规模直接决定了模型的能力上限,这也是为什么顶级LLM的预训练成本动辄数千万美元。

实践要点

预训练的关键决策:(1)模型规模——遵循Scaling Law;(2)数据配比——代码、数学数据可显著提升推理能力;(3)训练稳定性——需要仔细的学习率调度和梯度裁剪;(4)数据质量——高质量数据的收益远超单纯增加数据量。训练通常只进行1个epoch,重复数据会导致性能下降。

常见误区

误区一:预训练只需要大量数据即可——数据质量、多样性和配比同样关键,垃圾进垃圾出。误区二:预训练后的模型可以直接使用——Base Model倾向于续写文本而非回答问题,需要经过指令微调才能成为好用的助手。误区三:预训练只是简单地’背诵’文本——模型实际上学到了语言结构、逻辑关系和世界知识的压缩表示。