OpenAI训练数据引发关注：GPT - 4o对受版权书籍识别能力背后的数据披露问题

hwyzw · 发表于 2025-4-4 18:55:30

最新研究表明，其大型语言模型（LLMs）训练所使用的数据引起了广泛的关注。AI 披露项目的研究成果显示，最新的 GPT-4o 模型对 O’ Media 出版的、带有付费墙且受版权保护的书籍展现出了“强烈的识别能力”。

技术专家 Tim O’ 和经济学家 Ilan 共同领导着 AI 披露项目。这个项目的目的是推动企业与技术的透明度，以防范人工智能商业化可能导致的负面社会影响。项目发布的工作报告表明，当前人工智能领域缺少足够的数据披露机制，并且将其与金融领域的信息公开标准进行了对比，强调了后者在健全证券市场中的重要作用。

该方法用于测试模型能否区分由人类撰写的 O’原文与机器生成的改写文本。

主要发现包括：

同时，他们也承认，新一代的语言模型在区分人类撰写的文本和机器生成的文本方面，其表现要更好一些。然而，这并没有对当前方法在数据分类能力方面的验证产生影响。

报告强调，语言会随时间演变，可能产生“时间偏差”。为消除这一因素，研究团队选择了在相同数据时期内训练的两个模型，即 GPT-4o 与 GPT-4o Mini，对它们进行对比测试。

研究聚焦于 O’Media 图书，然而作者认为此现象或许能反映出整个行业在运用受版权保护数据时存在的普遍性问题。研究表明，未获得报酬的数据训练有可能会降低互联网内容的质量与多样性，原因在于这会对专业内容创作者的收入来源产生影响。

AI 披露项目发出呼吁，要加强对人工智能公司在模型预训练过程中数据来源的问责制。他们提出建议，设立激励机制让企业在数据溯源方面更加透明，这或许能成为推动训练数据许可及报酬商业化市场的重要举措。欧盟《人工智能法案》有披露要求。若此要求能得到有效实施，就有助于开启一轮正向的信息披露标准循环。这样能确保知识产权持有者及时知晓其作品在模型训练中的使用情况。进而为内容创作者数据市场的建立铺平道路。

与此同时，有迹象表明部分 AI 公司或许会通过非法途径来获取训练数据。然而，在市场上，一种通过许可协议支付训练数据费用的新模式正在逐步形成。像.ai 这样的公司正全力投入到训练数据的采购工作中，努力确保能够获得数据提供者的同意，并且会剔除其中的个人身份信息。

该报告最后进行总结。通过对 34 本专有 O’Media 图书展开研究。研究提供了实证证据。这些证据表明，很有可能在未获得授权的情况下，使用了非公开且受版权保护的数据来对其 GPT-4o 模型进行训练。

OpenAI训练数据引发关注：GPT - 4o对受版权书籍识别能力背后的数据披露问题

浏览过的版块