主要内容
Reddit 对 Anthropic 提起诉讼,指控这家人工智能公司未经许可从其平台提取用户内容并用于训练其 Claude AI 模型。该诉讼已提交至加利福尼亚州法院,称 Anthropic 向 Reddit 服务器发出了超过 10 万次未经授权的请求,即便此前已公开表示已停止。此案基于 Reddit 的主张,即 Anthropic 无视技术限制和服务条款。
据诉状称,Anthropic 绕过了诸如网站 robots.txt 文件等保护措施,该文件本应防止自动抓取。Reddit 还指控 Anthropic 收集和使用个人帖子(包括已删除的内容)用于商业目的,侵犯了用户隐私。Reddit 表示,它通过与 OpenAI 和谷歌等公司的许可协议提供对其数据的结构化访问,这些协议包括关于内容使用、隐私保障和数据删除的条件。
Reddit 称,Anthropic 拒绝寻求正式协议,而是直接抓取该网站,避免了许可费用并跳过了用户保护。该诉讼突出了 Anthropic 首席执行官达里奥·阿莫迪(Dario Amodei)于 2021 年共同撰写的一篇研究论文,该论文指出 Reddit 是语言模型的丰富训练数据来源。Reddit 还提供了 Claude 几乎逐字复制 Reddit 帖子的例子,甚至回应了用户已删除的帖子。该公司称,这表明 Anthropic 未能设置护栏以尊重用户隐私或内容删除。
Reddit 寻求经济赔偿和法院命令,禁止 Anthropic 在其模型的未来版本中使用 Reddit 内容。Anthropic 已作出回应,称不同意这些主张并计划为自己辩护。然而,这并非该公司首次因如何收集训练数据而面临法律压力。2024 年 8 月,一群作者提起集体诉讼,指控 Anthropic 未经许可使用其版权作品。2023 年 10 月,环球音乐集团和其他出版商也提起了类似诉讼,称其 Claude 聊天机器人正在复制受版权保护的歌词,违反了他们的知识产权并要求法院阻止进一步使用其歌词。与那些诉讼不同,Reddit 的案件不关注版权,而是围绕合同违约和不公平竞争。
诉讼提交后,Reddit 的股价上涨近 67%,这表明投资者支持这一举措。该案件的结果可能为公司在开放互联网内容与用户和内容所有者权利之间取得平衡设定先例。随着更多人工智能公司依赖大量在线数据,围绕抓取的法律和伦理问题越来越难以忽视。Reddit 的案件增加了塑造这波人工智能发展的诉讼数量。