三种大模型评估方案

基准测试（benchmark）评估：
1. 通过定义好的具体任务，制作出samples，通常包含原始数据和结果标签。将模型输出和标签结果对比得到评分，即metric（metric也是需要根据任务的特点来定义）
人类评估
1. 个体手动的做一些评测结果，凭感觉去评价模型效果和差异，也称作vibes-checks
2. 通过根据社区反馈来建立大规模的模型排行榜，进行评估，也称作arena，https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard就是一个广为人知的例子
3. 让真人对照给定要求，严格的对模型输出结果进行打分。
模型评估
1. 把输出结果交给另一个质量更高或者在特定任务上做过调优的模型，让模型来对结果进行打分

基准测试方法

<aside> 💡

通常是自动化的评测

</aside>

过拟合问题

因为大家都在追求在公开基准上更好的结果，更好的排名，会有意无意的调整训练参数和数据集来最大化测试结果。这会导致模型在基准上有非常好的表现，但在其他泛化任务上表现不佳。

从这个角度上来说，基准测试中的数据就成了模型的“训练集”，而“测试集”就是更广泛的真实世界中的问题，这让模型在基准测试上出现了间接的”过拟合”

除了”间接过拟合“，还存在”直接过拟合“的情况，也就是说大模型的训练数据中出现了基准测试的数据，包括测试数据，因为不少测试数据本身也是公开的。虽然说有的时候是无意混进去的，毕竟现在数据量太大，不好准确判断是不是混入了某些测试数据。针对这个问题，有一些方法提出在数据中加入“金丝雀字符串”（canary string），或者对测试数据进行加密，承认这是缓解的办法，但不能根本上解决。

难以评估“能力”

能力不是具体的任务，我们不能以识别手写数字的方式来定义模型能力高低，在手写数字识别的榜单上，识别率是很容易被理解的，但以评估大模型“数学能力”的标准榜单GSM8K为例，这个数据库包含了很多实际要解决的高中数学问题，涉及的内容丰富，表面上是数学，但数学本身又和实际问题相关，比如说下面这个例子，大模型如果理解时间能力有问题，同样不能回答好这道理。（这可能不是一个很“好“的例子，但能说明问题。）遇到这种情况，我们大模型失败的情况，也无法解释到底是哪方面原因。

Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?

娜塔莉亚在四月份向48位朋友出售了发夹，然后在五月份售出了四月份数量一半的发夹。娜塔莉亚在四月和五月总共卖出了多少发夹？

还有一些大模型能力更难评估，比如说大模型写诗的能力。包括现在大模型通用能力越来越收关注，应该怎么评估通用能力也是一大挑战。

其他问题

在多项选择评估中，模型对选项位置非常敏感，存在固定的选择偏差。具体来说，它们倾向于选择特定的选项ID作为答案（例如，“选项A”）。而不是根据对问题的理解做出选择