
近日,科技巨头 Adobe 遭遇了一场突如其来的集体诉讼,其核心指控直指其人工智能模型训练所用的数据来源——涉嫌非法使用了大量受版权保护的盗版书籍。俄勒冈州作家伊丽莎白·里昂(Elizabeth Lyon)作为原告代表,将 Adobe 推上了法律的审判台。诉讼内容直指 Adobe 在开发其轻量级语言模型 SlimLM 时,未经授权地利用了一个包含盗版书籍的数据集,其中赫然包含了里昂本人的作品。
这场风波的焦点,指向了 SlimLM 模型所依赖的开源数据集 SlimPajama-627B。根据诉讼披露,该数据集被指控内嵌了臭名昭著的 Books3 子集,这个子集据称汇集了约 19.1 万本未经授权的电子书。这无疑为 AI 模型训练的“数据合规性”问题投下了一枚重磅炸弹。SlimLM 模型本身,据称主要用于优化移动设备上的文档辅助任务,例如文本摘要、信息提取等,但其训练过程的合法性,此刻正受到严峻拷问。
值得注意的是,Adobe 并非孤例。在此之前,包括苹果(Apple)、Salesforce 以及 AI 新锐 Anthropic 在内的多家科技公司,也因使用了包含 Books3 内容的 RedPajama 或类似数据集,而卷入了类似的法律纠纷。这表明,AI 模型训练数据的版权问题,已经不再是个别公司的“小麻烦”,而是整个行业普遍面临的严峻挑战。
目前,Adobe 尚未对此诉讼公开回应。然而,这场诉讼的意义远不止于一起法律案件。随着人工智能技术的飞速发展和应用的日益广泛,训练数据的来源、版权以及合规性问题,正逐渐成为制约行业健康发展的关键瓶颈。此次 Adobe 被诉,无疑为整个 AI 行业敲响了警钟,预示着在技术狂飙突进的同时,法律与道德的边界也需要被重新审视和界定。未来的 AI 发展,将不再仅仅是技术的较量,更是数据合规与伦理规范的博弈。