Paper: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Feb 27, 2026

Authors: Raffel et al., 2019

arxiv: 1910.10683

一句话概括

T5将所有NLP任务统一转换为文本到文本格式，并通过大规模系统实验全面比较了预训练的各种设计选择和策略。

核心思想

将分类、翻译、摘要、问答等所有NLP任务都转换为文本输入到文本输出的统一格式，例如”翻译英语到德语：Hello”→”Hallo”。在大规模清洗的C4数据集（约750GB文本）上预训练编码器-解码器架构。同时系统比较了预训练目标（MLM vs 自回归 vs 前缀LM）、架构变体、数据规模、训练策略等多种因素对最终性能的影响。

关键创新

统一的text-to-text任务框架彻底消除了任务特定的架构设计需求；构建了大规模清洗的C4数据集作为公共资源；系统性的消融实验为预训练研究提供了极为宝贵的参考和指导；证明了编码器-解码器架构在多任务场景下的显著优势。

深远影响

统一框架的思想深刻影响了后续FLAN、UL2等工作的设计理念。C4数据集成为重要的预训练公共资源。其严谨系统的实验方法论为后续研究提供了范例，帮助整个社区理清了预训练中各个关键因素的相对重要性。

启发与思考

统一框架比任务特定设计更具扩展性和通用性。尽管系统消融实验非常昂贵，但其产出的价值是巨大的。T5的经验深刻表明：将复杂多样的问题转化为统一的简单形式来处理，往往能获得更好的整体效果和更优的工程可维护性。