模型合并(Model Merging)技术
一句话总结
模型合并通过在权重空间直接组合多个微调模型来获得综合能力,无需额外训练计算,是一种零成本的多任务能力融合方法。
核心概念
主要合并方法:线性插值(LERP)——按比例混合两个模型权重,最简单的基线方法;SLERP——球面线性插值,保持权重向量的模长,效果通常优于LERP;Task Arithmetic——将微调产生的任务向量(微调权重-基础权重)进行加减运算实现能力组合或消除;TIES-Merging——解决任务向量间的符号冲突和冗余参数问题;DARE——随机丢弃大部分参数差异,保留关键变化降低干扰。工具如mergekit支持多种合并策略的便捷实验。
为什么重要
模型合并让社区可以无需GPU就能组合不同能力,如将代码模型和对话模型合并获得兼具两种能力的模型。开源社区在HuggingFace上大量实践,部分合并模型在排行榜上表现优异。这是民主化AI的重要技术路径。
实践要点
合并的模型必须基于同一基础模型微调,否则权重空间不兼容;调整合并比例是关键超参数,需要在目标任务上网格搜索;SLERP通常优于简单线性插值;合并后必须在所有目标任务上验证效果。mergekit工具大幅简化了操作流程。
常见误区
误区一:任意模型都能合并——架构不同或基础权重不同的模型合并效果很差甚至无法工作。误区二:合并一定能获得所有参与模型的优点——不同能力之间可能存在干扰和冲突,导致某些能力退化。