Interview: 混合精度训练中BF16比FP16更适合LLM训练的根本原因是什么？

Mar 12, 2026

题目解析

混合精度训练是大模型训练的标配技术，而BF16在LLM训练中逐渐取代FP16成为主流选择。这道题考察候选人对浮点数表示和数值计算的理解，以及对LLM训练中数值稳定性问题的认识。这是连接理论和工程实践的重要知识点。

解答思路

FP16和BF16都是16位浮点数，但位分配不同：FP16有5位指数+10位尾数，BF16有8位指数+7位尾数。FP16的数值范围约±65504，BF16的数值范围与FP32相同（约±3.4×10³⁸），但BF16的精度更低。LLM训练中梯度和激活值的动态范围很大，FP16容易溢出或下溢，需要loss scaling来解决；BF16凭借更大的指数范围天然避免了这些问题。

关键要点

BF16优势的根本原因：(1)数值范围——LLM训练中attention score、梯度值的范围可能超过FP16的±65504上限，导致inf/nan，而BF16的范围与FP32相同，无需loss scaling；(2)简化训练流程——FP16需要精心设计loss scaling策略，BF16可以直接使用，降低工程复杂度；(3)损失函数稳定性——交叉熵中的log-softmax在极端值下FP16容易出问题。BF16的代价是精度较低（7位尾数vs10位），但实验表明对LLM训练的最终性能影响可以忽略。

加分回答

深入分析：BF16的设计初衷就是为深度学习服务——它是FP32的截断版本（直接取FP32的高16位），可以与FP32无损互转。硬件支持方面，A100及以后的GPU、TPU（从一开始就支持BF16）都有原生BF16支持。还可以讨论FP8的发展趋势（H100支持E4M3和E5M2两种FP8格式），以及混合精度训练中master weights保持FP32的重要性。

常见踩坑

常见错误是说BF16比FP16精度更高——恰恰相反，BF16的精度更低但范围更大。另一个坑是不知道FP16需要loss scaling而BF16不需要，或者不知道loss scaling的工作原理。也有人混淆混合精度训练中哪些部分用半精度、哪些用全精度——通常前向和反向用BF16计算，参数副本和优化器状态保持FP32。