Paper: NEFTune: Noisy Embeddings Improve Instruction Finetuning


一句话概括

NEFTune在指令微调的前向传播中向输入token embedding添加均匀随机噪声,这个实现上极其简单的技巧却能显著提升模型在AlpacaEval等对话基准上的表现。

核心思想

NEFTune的方法极其简洁直接:在指令微调的每次前向传播中,向token embedding向量加入按序列长度缩放的均匀随机噪声。噪声强度由超参数α控制,整个实现只需在embedding层输出后加一行代码。作者通过实验发现这种噪声注入起到了强大的正则化作用,有效防止模型在有限的指令微调数据上严重过拟合。在LLaMA-2-7B模型上,NEFTune将AlpacaEval得分从29.8%大幅提升到64.7%,提升幅度令人惊叹。

关键创新

1) 可能是目前最简单的指令微调性能改进方法——核心实现只需一行代码;2) 噪声缩放系数与序列长度的平方根成反比,巧妙保证了不同长度输入上信噪比的一致性;3) 在多个不同规模的模型和多种评估基准上都展现出稳定一致的提升效果。

深远影响

NEFTune被迅速集成到Hugging Face TRL等主流训练框架中,成为指令微调的标准配置技巧之一。它也激发了研究社区对embedding空间正则化策略的进一步深入探索,以及对微调过拟合问题机制的重新审视。

启发与思考

NEFTune再次有力验证了机器学习中的一个经典智慧:适当的随机噪声是最好的正则化武器。Dropout、数据增强、标签平滑的本质核心都是引入受控的随机噪声。在盲目追求复杂精巧的方法之前,”加点噪声试试看”也许应该成为每个实践者的第一直觉。