Interview: 如何在不重新训练的情况下将一个4K上下文模型扩展到32K？YaRN和NTK-aware的区别？

Apr 21, 2026

题目解析

RoPE位置编码的外推性问题：模型训练时只见过4K以内的位置，直接推理更长序列时注意力分数会出现异常。核心挑战是如何修改RoPE的频率参数使其在不微调的情况下支持更长上下文，同时不损害短距离的相对位置建模能力。

解答思路

基本方法是Position Interpolation(PI)：将位置索引缩放为原来的1/s(s=目标长度/训练长度=8)，相当于将32K位置”压缩”到[0,4K]区间。缺点是短距离分辨率降低。NTK-aware方法的洞察：RoPE的不同频率维度承担不同职责——高频维度编码局部位置，低频维度编码全局位置。因此只需要缩放低频维度（扩展远距离能力），保持高频维度不变（保持局部精度）。具体做法是修改base从10000到10000×s^(d/(d-2))。YaRN在NTK-aware基础上进一步改进：1）引入注意力分布修正因子；2）对不同频率维度使用不同的插值策略。

关键要点

PI是均匀缩放所有频率——简单但损失短距离精度
NTK-aware是非均匀缩放——低频缩放多，高频缩放少，但缺少理论最优缩放比例
YaRN引入了”NTK-by-parts”策略和温度修正，效果最好但实现较复杂
所有方法在不微调时能保持90%以上性能，加1-2K步微调可恢复到接近原始性能

加分回答

可以讨论Llama-3.1如何原生支持128K：在预训练后期逐步增加上下文长度并调整RoPE base到500000。还可以分析Code Llama使用的长上下文微调策略，以及ABF(Adjusted Base Frequency)与YaRN的效果对比。更进一步地讨论为什么ALiBi位置编码天然具有更好的外推性——因为它是线性衰减而非旋转编码。

常见踩坑

直接使用原始RoPE推理超长序列——位置索引超过训练范围后attention会崩溃
误以为NTK-aware不需要任何微调就能完美工作——无微调能用但有精度损失
只测试perplexity不测试下游任务——长上下文的实际利用能力可能远低于perplexity显示的