最新研究表明,其大型语言模型(LLMs)训练所使用的数据引起了广泛的关注。AI 披露项目的研究成果显示,最新的 GPT-4o 模型对 O’ Media 出版的、带有付费墙且受版权保护的书籍展现出了“强烈的识别能力”。
技术专家 Tim O’ 和经济学家 Ilan 共同领导着 AI 披露项目。这个项目的目的是推动企业与技术的透明度,以防范人工智能商业化可能导致的负面社会影响。项目发布的工作报告表明,当前人工智能领域缺少足够的数据披露机制,并且将其与金融领域的信息公开标准进行了对比,强调了后者在健全证券市场中的重要作用。
AI 披露项目发出呼吁,要加强对人工智能公司在模型预训练过程中数据来源的问责制。他们提出建议,设立激励机制让企业在数据溯源方面更加透明,这或许能成为推动训练数据许可及报酬商业化市场的重要举措。欧盟《人工智能法案》有披露要求。若此要求能得到有效实施,就有助于开启一轮正向的信息披露标准循环。这样能确保知识产权持有者及时知晓其作品在模型训练中的使用情况。进而为内容创作者数据市场的建立铺平道路。
与此同时,有迹象表明部分 AI 公司或许会通过非法途径来获取训练数据。然而,在市场上,一种通过许可协议支付训练数据费用的新模式正在逐步形成。像.ai 这样的公司正全力投入到训练数据的采购工作中,努力确保能够获得数据提供者的同意,并且会剔除其中的个人身份信息。