Paper: RWKV: Reinventing RNNs for the Transformer Era

Mar 6, 2026

Authors: Peng et al., 2023

arxiv: 2305.13048

一句话概括

RWKV巧妙结合了RNN的常数时间推理效率和Transformer的高效并行训练优势，实现了线性复杂度的大规模语言模型。

核心思想

设计了一种独特的线性注意力变体，在训练时可以像Transformer一样展开为矩阵运算实现并行计算，在推理时可以像RNN一样逐步递归计算（恒定的时间和空间复杂度）。通过精心设计的指数衰减时间混合机制替代传统注意力的softmax操作，同时用通道混合模块处理特征维度的信息交互，两者协同工作完成序列建模。

关键创新

WKV算子实现了训练时并行、推理时递归的双模式灵活计算；指数衰减的时间混合机制优雅地替代了传统位置编码；通道混合和时间混合分别高效处理特征维度和时间维度的信息交互；完全开源并成功训练到14B参数规模，验证了大规模可行性。

深远影响

有力证明了经典RNN架构在大规模语言模型时代经过重新设计仍然具有强大的生命力。为计算资源受限的推理场景提供了重要的替代方案和技术路线。活跃的全球开源社区持续推进RWKV的发展演化，在多语言和长文本处理等场景展现了独特优势。

启发与思考

经典架构（RNN）通过融入新的设计思想和理论进展可以焕发新的生命力。训练效率和推理效率可以被分别独立优化。在实际部署中，推理效率的重要性往往超过训练效率，这使得RWKV在边缘设备和移动端场景中具有独特的应用价值。