人类评估vs自动评估
一句话总结
人类评估是模型质量的金标准但成本高且主观性强,自动评估可扩展但存在系统性偏差,实践中需要两者结合。
核心概念
人类评估方式:绝对评分(Likert量表)、相对比较(A/B测试)、Elo排名(Chatbot Arena)。自动评估方式:基准测试(MMLU、HumanEval)、LLM-as-Judge(GPT-4打分)、参考答案对比(BLEU、ROUGE)。关键指标:标注者间一致性(Inter-Annotator Agreement)用Cohen’s Kappa衡量。Chatbot Arena通过众包方式收集大量用户偏好,被认为是最可靠的评估之一。
为什么重要
评估方法决定了模型优化的方向。错误的评估指标会误导开发,导致Goodhart定律——当指标成为目标时就不再是好指标。选择合适的评估体系是模型开发成功的关键。
实践要点
开发初期用自动评估快速迭代,关键节点用人类评估验证;人类评估需要详细的标注指南和多人交叉验证;自动评估需了解其局限性并定期与人类评估校准。评估数据集要避免被训练数据污染。
常见误区
误区一:自动评估可以完全替代人类评估——在创意性和微妙偏好上自动评估仍有明显不足。误区二:人类评估就是绝对客观的——标注者之间的分歧有时高达30-40%。