使用LLM的大规模在线去匿名化(利用黑客新闻帖子)
Large-scale online deanonymization with LLMs (using HN posts)

原始链接: https://arxiv.org/abs/2602.16800

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都拥抱并接受了我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与坚持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

一项最新研究(arxiv.org)表明,使用大型语言模型(LLM)可能对在线用户进行大规模去匿名化,尤其是在Hacker News和Reddit等平台上。研究表明,即使在尝试删除身份识别信息后,LLM仍然可以通过写作风格(“文体学”)和透露的个人细节(兴趣、工作、地点)将帐户与真实身份联系起来。 虽然文体学本身不是主要方法——重点在于语义线索——但该研究强调了看似匿名的在线资料的脆弱性。研究人员甚至成功地重新识别了来自他人有意删除信息的的数据集中的个人(例如Anthropic的面试者数据集)。 讨论的重点在于潜在的防御措施,包括使用本地LLM重写文本,同时保留含义,以及浏览器级别的警告,提醒用户不要透露个人信息。然而,一些人反对平台层面的限制,更倾向于通过更好的隐私工具来增强用户权限。一个关键的结论是,在网上实现真正的匿名性越来越困难。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com