排行榜幻象

排行榜幻象
The Leaderboard Illusion

原始链接: https://arxiv.org/abs/2504.20879

arXivLabs是一个框架，允许协作者直接在我们网站上开发和分享新的arXiv功能。与arXivLabs合作的个人和组织都已接受并认可我们开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观，并且只与遵守这些价值观的合作伙伴合作。有为arXiv社区增值项目的创意？了解更多关于arXivLabs的信息。

Hacker News 的一个帖子讨论了一篇论文，该论文批评了 AI 模型排行榜的可信度。Simon Willison 指出，资金雄厚的厂商提交大量模型变体，只选择性地发布性能最好的一个，从而造成不公平竞争。评论者指出，由于数据泄露和针对特定测试进行的优化训练，导致不准确的基准测试报告越来越多。 Godelski 强调了创建良好、无偏见的测试数据之难，并告诫不要仅仅依赖基准测试，他引用了古德哈特定律，并指出了“奖励黑客”的可能性。讨论探讨了评估 AI 性能的挑战，尤其是在人的偏好和潜在欺骗方面。一些用户认为公共基准测试不可信，需要进行私人评估。讨论还涉及指标对模型行为的影响，导致不良结果，例如阿谀奉承的回应和过度使用表情符号，这些都是为了追求高分。

（评论） 2024-08-28

在最先进的法学硕士中展示推理失败的简单任务 2024-06-06

自动代理长期一致性基准测试：售货机长凳 2025-04-20

滑动窗口的聚类行为 2025-03-19

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

排行榜幻象 The Leaderboard Illusion

排行榜幻象
The Leaderboard Illusion