AbsenceBench:语言模型无法辨别缺失之处
AbsenceBench: Language models can't tell what's missing

原始链接: https://arxiv.org/abs/2506.11440

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。与arXivLabs合作的个人和组织都已接受并认同我们开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与坚持这些价值观的合作伙伴合作。有为arXiv社区增值的项目想法?了解更多关于arXivLabs的信息。

Hacker News 上的一个帖子讨论了一篇名为“AbsenceBench”的论文,该论文发现大型语言模型 (LLM) 难以识别文本中缺失的信息。一位用户观察到 Claude 无法识别旋转后的图像。过去,旋转等数据增强技术被用来提高性能。一些评论者认为,LLM 主要擅长记忆而非推理,目前的训练方法过度强调提供正确的答案,而没有解释为什么错误的答案是错误的。无法检测缺失信息可能是 Transformer 架构的缺陷。一些人建议训练目标必须明确预期缺失信息,并且输入编码应该表示不确定性。另一些人指出,注意力机制可能不适合检测遗漏信息,并且没有测试顶级模型。该帖子还探讨了 LLM 如何处理无意义的输入以及提示如何影响它们的响应。虽然该基准本身可能存在缺陷,但这仍然是评估 LLM 智力这一方面的一个积极步骤。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com