从开放式大型语言模型中提取记忆化的书籍片段
Extracting memorized pieces of books from open-weight language models

原始链接: https://arxiv.org/abs/2505.12546

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。与arXivLabs合作的个人和组织都已接受并认同我们开放、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。是否有想法可以为arXiv社区增值的项目?了解更多关于arXivLabs的信息。

Hacker News 的讨论围绕着语言模型 (LLM) “记忆”并可能复制受版权保护材料的法律含义展开。文章探讨了 LLM 如何从其训练所用的书籍中提取段落,从而引发了关于版权侵权的问题。争论的焦点在于,使用受版权保护的数据进行训练本身是否构成侵权,或者只有生成“实质性相似”的内容才构成侵权。 一些人认为,将受版权保护的材料用于训练需要许可,并且 LLM 本质上是对受版权保护作品的压缩和再分发。另一些人则认为,LLM 是具有变革性的工具,可以产生新颖的输出,而不仅仅是复制品。一个关键点是,对于版权侵权行为,应该追究 LLM 的责任还是发出提示的用户 的责任。讨论还涉及“合理使用”以及防止 LLM 生成受版权保护的内容的难度,以及最终现有的版权法是否适合这项新技术。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com