LLaMA架构深度解析


一句话总结

LLaMA通过整合RoPE、RMSNorm、SwiGLU和GQA等技术改进,并遵循Chinchilla定律充分训练,成为开源大模型的标杆架构。

核心概念

LLaMA(Meta, 2023)在标准Transformer decoder基础上做了四项关键改进:(1)用RMSNorm替代LayerNorm,减少计算量;(2)用RoPE旋转位置编码替代绝对/相对位置编码,支持更好的长度外推;(3)用SwiGLU激活函数替代ReLU/GELU,提升FFN表达能力;(4)LLaMA-2引入GQA(分组查询注意力),在保持性能的同时降低KV Cache内存。这些改进已成为后续开源模型的标准配置。

为什么重要

LLaMA开源了权重和训练细节,为学术界和小团队提供了可复现的强大基座模型。其架构设计经过充分验证,已被Mistral、Qwen、Yi等主流开源模型广泛采纳,形成事实上的开源标准架构。

实践要点

LLaMA-2相比LLaMA-1将训练数据从1.4T扩展到2T token,上下文长度从2048扩展到4096。模型维度设计遵循特定比例:FFN隐藏层维度约为模型维度的2.68倍(SwiGLU调整)。使用BPE tokenizer,词表大小32K。推荐使用HuggingFace Transformers或vLLM加载。

常见误区

误区一:认为LLaMA只是简单堆叠已有技术。实际上各组件的选择和超参数调优经过大量实验验证。误区二:直接用LLaMA做对话任务,原始LLaMA是基座模型需要经过SFT和RLHF才能用于对话。误区三:忽视LLaMA不同尺寸模型的能力差异是非线性的。