
最近,一场围绕AI模型训练数据的版权纠纷将科技巨头Adobe推上了风口浪尖。俄勒冈州作家伊丽莎白·莱昂(Elizabeth Lyon)代表一众作者,对Adobe提起了集体诉讼,指控其在开发轻量化语言模型SlimLM时,使用了包含盗版作品的数据集进行训练,严重侵犯了作者的合法权益。SlimLM是Adobe专为移动设备优化的一系列AI模型,旨在提供文档摘要、改写、问答等辅助功能,而其训练数据源的合法性,正成为本次诉讼的核心焦点。
据Adobe方面表示,SlimLM模型是基于一个名为SlimPajama-627B的开源数据集进行预训练的。这个数据集由AI芯片公司Cerebras在去年(2023年)6月发布,宣称经过了去重和多来源语料的整合。然而,原告莱昂的诉状却揭示了SlimPajama-627B背后更复杂的“血统”:它实际上是RedPajama数据集的一个衍生版本,而RedPajama又直接继承了臭名昭著的Books3数据集的内容。Books3数据集曾因被指大量收录网络盗版书籍而饱受争议,其中包含了约19.1万本受版权保护的图书。莱昂及其代表的作家群体认为,SlimPajama-627B作为Books3的“后代”,自然也包含了大量未经授权的作品,其中就包括了他们自己的著作。
莱昂本人是一位非虚构写作指南的作者,她的作品据称就赫然出现在了被非法用于训练的数据之中。她指控Adobe,在未获得任何授权、未署名、也未支付任何费用的情况下,将她的文字用于商业AI产品的开发,这不仅是对其作品的盗用,更是对版权法赋予作者专有权利的公然侵犯。
这起诉讼并非孤例,而是AI行业训练数据合法性问题频发的一个缩影。Books3和RedPajama这两个数据集,已经成为了近期一系列版权诉讼的“高频词”。就在不久前的9月份,苹果公司就因被指控使用Books3训练其Apple Intelligence而面临集体诉讼;同月,AI公司Anthropic也与作家群体就类似指控达成了高达15亿美元的和解协议,这被视为AI版权案件中的一个重要里程碑。而到了10月份,Salesforce也因为被指依赖RedPajama训练其AI系统而卷入了官司。
随着生成式AI技术的飞速发展,对海量文本数据的需求与日俱增,训练数据的合法性问题也正从一个模糊的道德争议,逐渐演变为一个严峻的法律雷区。Adobe此次被卷入诉讼,再次暴露了AI行业的一个普遍困境:即使开发者声称使用了“开源”数据集,但如果这些开源数据的源头本身就包含了侵权内容,那么下游的开发者仍然可能面临连带责任。在Anthropic天价和解案的阴影下,Adobe如何应对此次诉讼,其结果无疑将对整个AI行业在训练数据溯源和合规审查方面的重视程度产生深远影响。而对于广大的内容创作者而言,这场诉讼的走向,不仅关乎其个人的维权,更可能是在“AI时代创作价值如何被承认和归属”这一关键问题上,一次具有决定性意义的确认。