模型合并(Model Merging)技术

Apr 22, 2026

一句话总结

模型合并通过在权重空间直接组合多个微调模型来获得综合能力，无需额外训练计算，是一种零成本的多任务能力融合方法。

核心概念

主要合并方法：线性插值(LERP)——按比例混合两个模型权重，最简单的基线方法；SLERP——球面线性插值，保持权重向量的模长，效果通常优于LERP；Task Arithmetic——将微调产生的任务向量(微调权重-基础权重)进行加减运算实现能力组合或消除；TIES-Merging——解决任务向量间的符号冲突和冗余参数问题；DARE——随机丢弃大部分参数差异，保留关键变化降低干扰。工具如mergekit支持多种合并策略的便捷实验。

为什么重要

模型合并让社区可以无需GPU就能组合不同能力，如将代码模型和对话模型合并获得兼具两种能力的模型。开源社区在HuggingFace上大量实践，部分合并模型在排行榜上表现优异。这是民主化AI的重要技术路径。

实践要点

合并的模型必须基于同一基础模型微调，否则权重空间不兼容；调整合并比例是关键超参数，需要在目标任务上网格搜索；SLERP通常优于简单线性插值；合并后必须在所有目标任务上验证效果。mergekit工具大幅简化了操作流程。

常见误区

误区一：任意模型都能合并——架构不同或基础权重不同的模型合并效果很差甚至无法工作。误区二：合并一定能获得所有参与模型的优点——不同能力之间可能存在干扰和冲突，导致某些能力退化。