主要内容
去年,互联网基础设施公司 Cloudflare 推出了工具,使客户能够阻止 AI 爬虫。如今,该公司将打击未经许可的抓取行动又向前推进了几步。它已默认开始为客户阻止 AI 爬虫,并推进了按次抓取付费计划,让客户向 AI 公司收取抓取其网站的费用。
几十年来,网络爬虫一直在互联网上搜索信息。如果没有它们,人们将失去从谷歌搜索到互联网档案馆宝贵的数字保存工作等至关重要的在线工具。但人工智能热潮也催生了以人工智能为重点的网络爬虫的相应繁荣,这些机器人以可模拟 DDoS 攻击的频率抓取网页,使服务器不堪重负,导致网站下线。
即使网站能够处理这种增加的活动,许多网站也不希望 AI 爬虫抓取其内容,尤其是那些要求 AI 公司付费使用其作品的新闻出版物。“我们一直在拼命保护自己,”代表数千家北美媒体的贸易组织新闻媒体联盟总裁兼首席执行官丹妮尔·科菲 (Danielle Coffey) 说。
到目前为止,Cloudflare 的 AI 控制、隐私和媒体产品负责人威尔·艾伦 (Will Allen) 告诉《连线》杂志,超过 100 万个客户网站已激活其较旧的 AI 机器人阻止工具。现在,还有数百万个网站可以选择将机器人阻止设为默认设置。
Cloudflare 还表示,它可以识别出 AI 公司未公开的“影子”爬虫。该公司指出,它使用行为分析、指纹识别和机器学习的专有组合来对 AI 机器人和“好”机器人进行分类和分离。
一个广泛使用的称为机器人排除协议的网络标准,通常通过 robots.txt 文件实施,有助于出版商逐案阻止机器人,但遵循该协议并非法律要求,而且有大量证据表明,一些 AI 公司试图逃避阻止其爬虫的努力。
“robots.txt 被忽视了,”科菲说。根据内容许可平台 Tollbit 的一份报告,该平台为出版商提供了与 AI 公司就机器人访问进行谈判的自己的市场,AI 抓取仍在上升——包括忽略 robots.txt 的抓取。Tollbit 发现,仅在 2025 年 3 月,就有超过 2600 万次抓取忽略了该协议。
在这种情况下,Cloudflare 默认阻止的转变可能对偷偷摸摸的爬虫构成重大障碍,并可能使出版商在通过按次抓取付费计划或其他方式进行谈判时拥有更多筹码。
“这可能会极大地改变权力动态。到目前为止,AI 公司不需要为许可内容付费,因为他们知道他们可以随意获取而不受惩罚,”《大西洋》首席执行官(前《连线》杂志总编辑)尼古拉斯·汤普森 (Nicholas Thompson) 说。“现在他们将不得不进行谈判,并且能够与更多更好的出版商达成更多更好交易的 AI 公司将具有竞争优势。”
AI 初创公司 ProRata 运营着 AI 搜索引擎 Gist.AI,据其首席执行官兼创始人比尔·格罗斯 (Bill Gross) 称,该公司已同意参与按次抓取付费计划。“我们坚信,当他们的内容在 AI 答案中使用时,所有内容创作者和出版商都应该得到补偿,”格罗斯说。
当然,AI 领域的大公司是否会参与像按次抓取付费这样的计划仍有待观察,该计划仍处于测试阶段。(Cloudflare 拒绝透露当前参与者。)像 OpenAI 这样的公司已与各种出版合作伙伴达成了许可协议,包括《连线》母公司康泰纳仕,但这些协议的具体细节尚未披露,包括协议是否涵盖机器人访问。
与此同时,有一个完整的在线教程生态系统,介绍如何规避 Cloudflare 针对网络爬虫的机器人阻止工具。随着默认阻止的推出,这些努力很可能会继续。