<aside> 💡
通常是自动化的评测
</aside>
因为大家都在追求在公开基准上更好的结果,更好的排名,会有意无意的调整训练参数和数据集来最大化测试结果。这会导致模型在基准上有非常好的表现,但在其他泛化任务上表现不佳。
从这个角度上来说,基准测试中的数据就成了模型的“训练集”,而“测试集”就是更广泛的真实世界中的问题,这让模型在基准测试上出现了间接的”过拟合”
除了”间接过拟合“,还存在”直接过拟合“的情况,也就是说大模型的训练数据中出现了基准测试的数据,包括测试数据,因为不少测试数据本身也是公开的。虽然说有的时候是无意混进去的,毕竟现在数据量太大,不好准确判断是不是混入了某些测试数据。针对这个问题,有一些方法提出在数据中加入“金丝雀字符串”(canary string),或者对测试数据进行加密,承认这是缓解的办法,但不能根本上解决。
能力不是具体的任务,我们不能以识别手写数字的方式来定义模型能力高低,在手写数字识别的榜单上,识别率是很容易被理解的,但以评估大模型“数学能力”的标准榜单GSM8K为例,这个数据库包含了很多实际要解决的高中数学问题,涉及的内容丰富,表面上是数学,但数学本身又和实际问题相关,比如说下面这个例子,大模型如果理解时间能力有问题,同样不能回答好这道理。(这可能不是一个很“好“的例子,但能说明问题。)遇到这种情况,我们大模型失败的情况,也无法解释到底是哪方面原因。
Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?
娜塔莉亚在四月份向48位朋友出售了发夹,然后在五月份售出了四月份数量一半的发夹。娜塔莉亚在四月和五月总共卖出了多少发夹?
还有一些大模型能力更难评估,比如说大模型写诗的能力。包括现在大模型通用能力越来越收关注,应该怎么评估通用能力也是一大挑战。