Paper: Model Soups: Averaging Weights of Multiple Fine-tuned Models
一句话概括
Model Soups发现,将使用不同超参数微调得到的多个模型的权重进行简单算术平均,可以同时提升预测精度和分布外鲁棒性,且推理时不增加任何额外计算成本。
核心思想
传统做法是在多组超参数配置中通过验证集选择表现最优的单一模型。Model Soups提出了一个更优的策略:将这些来自不同超参数的模型的权重直接取算术平均值。这之所以可行,是因为从同一个预训练模型出发微调的多个模型在高维权重空间中位于同一个”损失盆地”(loss basin)内,因此它们的平均值也位于盆地之中,并且往往更接近盆地的中心位置——一个损失景观更加平坦、因而泛化能力更好的区域。
关键创新
1) 均匀汤(Uniform Soup):直接算术平均所有候选模型的权重,方法简单但效果显著;2) 贪心汤(Greedy Soup):按验证集性能依次考虑加入每个模型,只保留能带来改善的;3) 理论分析了权重平均有效的核心条件——共享预训练起点和损失景观的路径连通性。
深远影响
Model Soups催生了模型合并(Model Merging)这一全新的研究方向。后续的TIES-Merging、DARE等工作进一步改进了合并策略和冲突解决机制。在开源社区中,模型合并已成为创建新模型的流行方法——无需任何训练过程,只需合并现有模型的权重。
启发与思考
Model Soups揭示了一个意味深长的现象:微调后的多个模型虽然具体权重不同,但在功能上是高度”相似”的,它们之间的差异主要是随机噪声而非有意义的信号。通过平均操作消除噪声、保留共享的有效信号,这与集成学习的核心哲学一脉相承,但实现成本低得多——只需要存储一个模型的权重。