Anthropic公司近日在美国加利福尼亚北区地方法院赢得了一场重要的版权诉讼。该诉讼的核心在于,Anthropic使用受版权保护的图书作品来训练其Claude大模型是否构成侵权。法院最终裁定,这种使用行为属于合理使用,进一步明确了大模型训练数据版权边界,对人工智能领域的发展具有深远影响。本文将深入探讨此案,分析判决的关键要点,以及对大模型行业的影响。

版权法下的合理使用原则与大模型训练

合理使用原则是版权法中一项重要的例外,允许在特定情况下使用受版权保护的作品,而无需获得版权所有者的许可。美国版权法第107条列出了四个判断合理使用的因素:(1) 使用的目的和性质,包括商业性质或非营利教育目的;(2) 受版权保护作品的性质;(3) 使用的量和实质性,相对于受版权保护作品整体而言;(4) 使用对受版权保护作品的潜在市场或价值的影响。

本案中,作者们(Andrea Bartz, Charles Graeber, 和 Kirk Wallace Johnson)指控Anthropic未经授权使用他们的作品来训练Claude大模型。他们认为,Anthropic从盗版来源(如Books3, LibGen 和 PiLiMi)以及购买来源复制了他们的书籍,并将这些数据用于创建一个“通用研究图书馆”或“通用数据区”。作者们并未声称Claude大模型的输出结果侵犯了他们的版权,而是质疑用于训练大模型的输入数据的合法性。

法院的判决:转化性使用是关键

法院在判决中强调了使用目的的转化性。法院认为,Anthropic使用受版权保护的图书作品来训练Claude大模型是一种高度转化性的使用,因此属于合理使用。法院指出,Claude大模型并未复制原作品的创造性元素,甚至没有复制作者可识别的表达风格。相反,Claude大模型从数千部作品中提炼出语法、构图和风格,用于生成新的文本。

法院进一步解释说,如果有人阅读了所有现代经典作品,记住了它们,然后模仿了它们的最佳写作风格,这不会构成版权侵权。版权不延伸到作品中体现的“操作方法、概念或原则”。换句话说,训练大模型的目的是为了生成新的文本,而不是为了复制或取代原作品,这使得这种使用具有了根本的转化性

举例来说,假设一位作家阅读了大量的科幻小说,从中学习了情节构建、人物塑造和世界观设定的技巧,然后创作了一部全新的科幻小说。即使新作品受到了这些阅读经历的影响,也不会构成版权侵权,因为作家并没有复制任何具体的情节、人物或文字。同样,Anthropic使用受版权保护的图书作品来训练Claude大模型,也是为了让大模型学习写作技巧,而不是为了复制原作品。

对潜在市场的影响:竞争与合理使用

除了转化性之外,法院还考虑了使用对受版权保护作品的潜在市场的影响。法院认为,用于训练特定LLM的副本不会取代对作者作品副本的需求。作者们声称,训练LLM会导致大量与他们的作品竞争的作品出现,例如对事实事件的替代摘要、关于虚构事件的引人注目的写作的替代示例等等。但法院认为,这与培训学生写作良好导致大量竞争作品出现没有什么不同。版权法旨在推进原创作品的创作,而不是保护作者免受竞争。

作者们还声称,训练LLM取代了(或将会取代)一个新兴的市场,即授权他们的作品专门用于训练LLM。Anthropic辩称,交易成本将超过Anthropic从此类交易中获得的预期收益,促使其停止与任何权利持有人打交道,或者完全停止开发此类技术。法院认为,即使存在这样一个新兴市场,版权法也没有赋予作者利用该市场的权利。

这意味着,即使训练大模型可能会对作者的作品产生一定的竞争影响,但这并不足以构成版权侵权。版权法的目的不是保护作者免受任何形式的竞争,而是保护他们的原创作品不被未经授权的复制和传播。只有当训练大模型导致了对原作品的直接复制或实质性相似的模仿时,才可能构成版权侵权。

使用盗版数据的争议与判决

值得注意的是,尽管法院裁定使用受版权保护的作品来训练Claude大模型属于合理使用,但法院也明确指出,Anthropic无权使用盗版副本用于其中央图书馆。这意味着,即使训练大模型本身可能构成合理使用,但非法获取训练数据仍然是不可接受的。

这一判决对大模型行业提出了更高的要求,要求公司在获取训练数据时必须遵守版权法,避免使用盗版数据。这可能会增加大模型训练的成本和复杂性,但也可能促使行业更加重视数据的合法性和伦理性。

大模型训练数据的未来:授权与合作

Anthropic案件的判决可能会促使大模型公司与版权所有者之间建立更紧密的合作关系。与其冒险使用受版权保护的作品,不如与作者、出版商等达成授权协议,以合法的方式获取训练数据

例如,一些公司已经开始探索与新闻机构合作,获取新闻文章的授权用于训练大模型。通过支付一定的费用,大模型公司可以获得合法的数据来源,而新闻机构则可以获得额外的收入来源。这种合作模式可以实现双赢,促进大模型行业和内容产业的共同发展。

此外,还可以探索使用公共领域的数据来训练大模型。公共领域的数据不受版权保护,可以自由使用。例如,古籍、政府文件、科学论文等都可能成为大模型训练的宝贵资源。

实际案例与数据分析

以下是一些实际案例和数据,可以更好地理解Anthropic案件的影响:

  • 案例1:GPT-3的训练数据来源 OpenAI的GPT-3模型使用了大量的文本数据进行训练,包括书籍、网页、新闻文章等等。这些数据中有很大一部分是受版权保护的,OpenAI是否获得了所有这些数据的授权仍然是一个问题。Anthropic案件的判决可能会促使OpenAI更加重视数据的合法性和伦理性。

  • 案例2:GitHub Copilot的版权争议 GitHub Copilot是一款AI代码助手,它使用大量的开源代码进行训练。一些开发者认为,Copilot可能会侵犯他们的版权,因为Copilot可能会生成与他们的代码相似的代码。这个案例表明,即使是开源代码,也可能存在版权争议。

  • 数据:版权侵权诉讼的数量 近年来,涉及人工智能版权侵权的诉讼数量不断增加。这反映了人工智能技术的快速发展和版权保护意识的提高。Anthropic案件的判决可能会对未来的版权诉讼产生重要的影响。

SEO优化与关键词策略

为了提高文章的搜索排名,我们需要合理地使用关键词。以下是一些建议:

  • 标题: 在标题中包含核心关键词,例如“Anthropic”、“版权”、“大模型”、“训练数据”、“合理使用”等等。
  • 首段: 在首段中再次提及核心关键词,并概括文章的主要内容。
  • 正文: 在正文中自然地使用关键词,避免过度堆砌。
  • 图片: 为图片添加alt属性,描述图片的内容,并包含关键词。
  • 链接: 在文章中添加内部链接和外部链接,链接到相关的文章和网站。

结论:大模型时代的版权挑战与机遇

Anthropic赢得版权诉讼,标志着大模型训练数据合理使用边界得到了进一步的明确。法院的判决强调了使用目的的转化性,以及对潜在市场的影响。虽然判决对大模型行业来说是一个积极的信号,但也提出了更高的要求,要求公司在获取训练数据时必须遵守版权法,避免使用盗版数据。

未来,大模型公司需要与版权所有者建立更紧密的合作关系,探索授权、合作、以及使用公共领域数据等多种途径,以合法、合规的方式获取训练数据。只有这样,才能推动大模型行业的健康、可持续发展。大模型时代,版权既是挑战,也是机遇。把握机遇,应对挑战,才能在人工智能的浪潮中乘风破浪。Anthropic案件的判决无疑为我们指明了方向,让我们更加清晰地认识到大模型与版权之间的复杂关系,以及如何在版权法的框架下,推动人工智能技术的创新发展。