互联网最强大的归档工具岌岌可危 - AI News
互联网最强大的归档工具岌岌可危

互联网最强大的归档工具岌岌可危

2026-04-13

新闻要点

近期,包括 USA Today Co.、纽约时报在内的 23 家主流新闻网站及社交平台 Reddit,通过阻止爬虫或限制 API 等方式限制互联网档案馆 Wayback Machine 抓取内容;本周,超 100 名记者(含 Rachel Maddow)联合签名支持该工具,强调其在新闻研究、事实核查等方面的核心价值,部分媒体限制原因包括防止 AI 滥用或阻止所有爬虫。

- 23 家主流新闻网站及 Reddit 阻止 Wayback Machine 的 ia_archiverbot 爬虫

- 超 100 名记者签名支持 Wayback Machine,含 Rachel Maddow 等

- USA Today 用 Wayback Machine 做报道却阻止其抓取自身内容

- 媒体限制原因含防止 AI 滥用、阻止所有爬虫

- Wayback Machine 用于新闻研究、事实核查等场景

主要内容

本月,《今日美国》报道了美国移民与海关执法局(ICE)延迟披露拘留政策影响关键信息的事件,其报道依赖互联网档案馆“时光机”(Wayback Machine)整理的ICE拘留数据。这一事件凸显了“时光机”作为网页存档工具的价值,但其母公司却阻止该工具存档其内容,做法颇具讽刺意味。

据原创性AI(Originality AI)分析,23家主流新闻网站(含《纽约时报》、Reddit等)正阻止“ia_archiverbot”(互联网档案馆用于“时光机”项目的网页爬虫)。《今日美国》称此举是为阻止所有抓取机器人,《卫报》则因担忧AI公司滥用存档内容,通过限制API和过滤界面限制访问。

记者群体正抵制这一趋势。电子前哨基金会(EFF)、争取未来组织(Fight for the Future)本周联合100多位记者签名支持“时光机”,认为其是保护新闻记录的关键工具。《拦截》播客制作人劳拉·弗林称其“核查事实、提取音频片段”不可或缺,《芝加哥读者》记者Micco Caporale则用其查找旧招聘信息,追踪薪资波动,助力工会组织工作。