Interview: 模型合并(Model Merging)的工作原理与TIES-Merging、DARE的核心思想


题目解析

模型合并在不额外训练的情况下组合多个模型的能力,这种”免费午餐”现象令人惊讶。理解其工作原理和代表性方法,是低成本模型增强的重要技能。

解答思路

模型合并能工作的理论解释:1. 损失函数的线性连通性(Linear Mode Connectivity)——从同一预训练模型微调出的不同模型,在参数空间中的线性插值路径上loss不会显著上升;2. 任务向量假设——微调的参数变化量(task vector)编码了特定任务的知识,可以叠加。TIES-Merging的核心思想:解决task vector合并时的符号冲突——不同模型对同一参数的更新方向可能相反,TIES通过投票机制选择多数方向,剔除幅度小的更新,修剪冲突后再合并。DARE的核心思想:大部分参数更新是冗余的,随机丢弃90%-99%的参数更新(类似Dropout)再放大保留的更新,可以减少合并时的干扰。

关键要点

  1. 合并的前提是模型来自同一基座(保证线性连通性);2. 简单平均是最基础的合并方法,但会被冲突参数拖累;3. TIES解决符号冲突,DARE通过稀疏化减少干扰;4. 合并比例是关键超参数,需要在验证集上调整。

加分回答

SLERP(球面线性插值)在两个模型合并时可能比线性插值效果更好。模型合并还可以用于隐私保护——多方各自微调后合并,不需要共享数据。最新的进展如进化搜索最优合并配方(Evolutionary Model Merge)可以自动找到最佳合并策略。

常见踩坑

最大的坑是合并来自不同基座模型的checkpoint——它们在参数空间中不具备线性连通性,合并结果通常是灾难性的。另一个坑是忽略层级差异,实际上不同层的最优合并系数可能不同。