Interview: 模型合并(Model Merging)的工作原理与TIES-Merging、DARE的核心思想

Apr 7, 2026

题目解析

模型合并在不额外训练的情况下组合多个模型的能力，这种”免费午餐”现象令人惊讶。理解其工作原理和代表性方法，是低成本模型增强的重要技能。

解答思路

模型合并能工作的理论解释：1. 损失函数的线性连通性(Linear Mode Connectivity)——从同一预训练模型微调出的不同模型，在参数空间中的线性插值路径上loss不会显著上升；2. 任务向量假设——微调的参数变化量(task vector)编码了特定任务的知识，可以叠加。TIES-Merging的核心思想：解决task vector合并时的符号冲突——不同模型对同一参数的更新方向可能相反，TIES通过投票机制选择多数方向，剔除幅度小的更新，修剪冲突后再合并。DARE的核心思想：大部分参数更新是冗余的，随机丢弃90%-99%的参数更新(类似Dropout)再放大保留的更新，可以减少合并时的干扰。

关键要点

合并的前提是模型来自同一基座(保证线性连通性)；2. 简单平均是最基础的合并方法，但会被冲突参数拖累；3. TIES解决符号冲突，DARE通过稀疏化减少干扰；4. 合并比例是关键超参数，需要在验证集上调整。

加分回答

SLERP(球面线性插值)在两个模型合并时可能比线性插值效果更好。模型合并还可以用于隐私保护——多方各自微调后合并，不需要共享数据。最新的进展如进化搜索最优合并配方(Evolutionary Model Merge)可以自动找到最佳合并策略。

常见踩坑

最大的坑是合并来自不同基座模型的checkpoint——它们在参数空间中不具备线性连通性，合并结果通常是灾难性的。另一个坑是忽略层级差异，实际上不同层的最优合并系数可能不同。