主要内容
人工智能披露项目的一项新研究引发了对 OpenAI 用于训练其大型语言模型(LLMs)数据的质疑。研究表明,OpenAI 的 GPT-4o 模型对 O'Reilly Media 书籍的付费墙和版权数据有“强烈识别”。该项目由技术专家 Tim O'Reilly 和经济学家 Ilan Strauss 领导,旨在通过倡导提高企业和技术透明度来解决人工智能商业化可能带来的有害社会影响。
该项目的工作论文强调了人工智能中缺乏披露,将其与金融披露标准及其在培育稳健证券市场中的作用进行了对比。研究使用了合法获得的 34 本受版权保护的 O'Reilly Media 书籍的数据集,以调查 OpenAI 的 LLMs 是否在未经同意的情况下在受版权保护的数据上进行了训练。
研究人员应用了 DE-COP 成员推断攻击方法,以确定模型是否能够区分人类撰写的 O'Reilly 文本和释义的 LLM 版本。报告的主要发现包括:GPT-4o 对付费墙 O'Reilly 书籍内容显示“强烈识别”,AUROC 得分为 82%。相比之下,OpenAI 的早期模型 GPT-3.5 Turbo 没有显示出相同水平的识别(AUROC 得分略高于 50%)。GPT-4o 对非公开 O'Reilly 书籍内容的识别比公开可访问样本更强(分别为 82%和 64%的 AUROC 得分)。GPT-3.5 Turbo 对公开可访问的 O'Reilly 书籍样本的相对识别比非公开样本更强(64%和 54%的 AUROC 得分)。GPT-4o Mini 这一较小模型在测试时未显示对公开或非公开 O'Reilly Media 内容的了解(AUROC 约为 50%)。
研究人员认为,访问违规可能通过 LibGen 数据库发生,因为所有测试的 O'Reilly 书籍都在那里被发现。他们还承认,较新的 LLMs 具有更好的区分人类撰写和机器生成语言的能力,但这并未降低该方法对数据分类的能力。
该研究强调了结果中“时间偏差”的可能性,因为语言随时间而变化。为了解决这个问题,研究人员测试了在同一时期数据上训练的两个模型(GPT-4o 和 GPT-4o Mini)。报告指出,虽然证据特定于 OpenAI 和 O'Reilly Media 书籍,但它可能反映了围绕使用版权数据的系统性问题。它认为,未补偿的训练数据使用可能导致互联网内容质量和多样性的下降,因为专业内容创作的收入流减少。
人工智能披露项目强调了在人工智能公司的模型预训练过程中需要更强的问责制。他们认为,激励企业在披露数据来源方面提高透明度的责任条款可能是促进训练数据许可和报酬商业市场的重要一步。欧盟 AI 法案的披露要求如果得到正确规定和执行,可能有助于引发积极的披露标准周期。确保知识产权持有者知道他们的作品何时在模型训练中被使用,被视为建立人工智能内容创作者数据市场的关键步骤。
尽管有证据表明人工智能公司可能在非法获取用于模型训练的数据,但一个市场正在出现,人工智能模型开发人员通过许可交易为内容付费。像 Defined.ai 这样的公司促进了训练数据的购买,从数据提供者那里获得同意并去除个人可识别信息。
报告总结称,使用 34 本专有 O'Reilly Media 书籍,该研究提供了经验证据,表明 OpenAI 可能在非公开、受版权保护的数据上训练了 GPT-4o。