对抗诗歌作为大型语言模型的通用单轮越狱机制
Adversarial poetry as a universal single-turn jailbreak mechanism in LLMs

原始链接: https://arxiv.org/abs/2511.15304

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受了我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

## LLM 诗歌越狱:总结 近期一项研究(arxiv.org)表明,大型语言模型(LLM)存在一种令人惊讶的漏洞:它们可以通过对抗性诗歌被“越狱”——被诱骗绕过安全协议。研究人员发现,将有害提示重新编排为诗歌显著提高了成功率(手工制作的诗歌高达 62%,AI 生成的诗歌为 43%),相比于直接提示。 核心思想是诗歌的风格差异可以逃避 LLM 的典型检测机制。评论员推测,这是因为 LLM 尚未充分训练来识别和过滤以诗歌形式表达的恶意意图。一些人认为,这凸显了一个更广泛的问题:LLM 可能会受到任何显著偏离其训练数据的输入的影响。 这一发现引发了关于网络安全影响的讨论,一些人设想未来会出现“诗歌黑客”利用这种弱点。另一些人则争论了研究和发布此类漏洞的伦理问题,以及对更强大的防御机制的需求。值得注意的是,该论文故意省略了具体细节以防止滥用,这让一些倡导开放安全研究的人感到沮丧。该研究结果也引发了对科幻小说桥段的幽默比较,以及对语言力量——或许是对英语专业的——的重新欣赏。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com