Blocking LLM crawlers without JavaScript

原始链接: https://www.owl.is/blogg/blocking-crawlers-without-javascript/

## 黑客新闻讨论:阻止LLM爬虫 (owl.is) 一场黑客新闻讨论围绕着一种无需依赖JavaScript就能识别和阻止LLM爬虫的方法,详情见[owl.is](https://owl.is/)。该网站使用一个隐藏链接;合法用户不会看到它,但试图抓取内容的爬虫很可能会跟随它,从而暴露自己。 讨论很快就突出了潜在的滥用可能性——恶意行为者可以利用该链接来破坏网站。人们对区分合法的用户代理和机器人、住宅代理的影响以及阻止顽固爬虫的难度表示担忧。 许多用户建议的解决方案包括移除指向蜜罐URL的链接、速率限制以及使用“技能测试”问题(如CAPTCHA)。 一个关键点浮出水面:传统爬虫(尊重`robots.txt`)和激进的LLM爬虫之间的区别,后者经常无视这些规则,并优先考虑数据量而不是网站健康。 一些人认为,阻止*任何*自动化访问是适得其反的,因为它可能会阻碍合法的AI驱动用户代理。 最终,这场对话强调了在大型语言模型时代,在可访问性和防止滥用抓取行为之间取得平衡的持续挑战。
相关文章

原文
联系我们 contact @ memedata.com