人类评估vs自动评估

Apr 20, 2026

一句话总结

人类评估是模型质量的金标准但成本高且主观性强，自动评估可扩展但存在系统性偏差，实践中需要两者结合。

核心概念

人类评估方式：绝对评分(Likert量表)、相对比较(A/B测试)、Elo排名(Chatbot Arena)。自动评估方式：基准测试(MMLU、HumanEval)、LLM-as-Judge(GPT-4打分)、参考答案对比(BLEU、ROUGE)。关键指标：标注者间一致性(Inter-Annotator Agreement)用Cohen’s Kappa衡量。Chatbot Arena通过众包方式收集大量用户偏好，被认为是最可靠的评估之一。

为什么重要

评估方法决定了模型优化的方向。错误的评估指标会误导开发，导致Goodhart定律——当指标成为目标时就不再是好指标。选择合适的评估体系是模型开发成功的关键。

实践要点

开发初期用自动评估快速迭代，关键节点用人类评估验证；人类评估需要详细的标注指南和多人交叉验证；自动评估需了解其局限性并定期与人类评估校准。评估数据集要避免被训练数据污染。

常见误区

误区一：自动评估可以完全替代人类评估——在创意性和微妙偏好上自动评估仍有明显不足。误区二：人类评估就是绝对客观的——标注者之间的分歧有时高达30-40%。