Blocking LLM crawlers without JavaScript

原始链接: https://www.owl.is/blogg/blocking-crawlers-without-javascript/

## 黑客新闻讨论：阻止LLM爬虫 (owl.is) 一场黑客新闻讨论围绕着一种无需依赖JavaScript就能识别和阻止LLM爬虫的方法，详情见[owl.is](https://owl.is/)。该网站使用一个隐藏链接；合法用户不会看到它，但试图抓取内容的爬虫很可能会跟随它，从而暴露自己。讨论很快就突出了潜在的滥用可能性——恶意行为者可以利用该链接来破坏网站。人们对区分合法的用户代理和机器人、住宅代理的影响以及阻止顽固爬虫的难度表示担忧。许多用户建议的解决方案包括移除指向蜜罐URL的链接、速率限制以及使用“技能测试”问题（如CAPTCHA）。一个关键点浮出水面：传统爬虫（尊重`robots.txt`）和激进的LLM爬虫之间的区别，后者经常无视这些规则，并优先考虑数据量而不是网站健康。一些人认为，阻止*任何*自动化访问是适得其反的，因为它可能会阻碍合法的AI驱动用户代理。最终，这场对话强调了在大型语言模型时代，在可访问性和防止滥用抓取行为之间取得平衡的持续挑战。