大模型技术的飞速发展,离不开海量数据的训练,而这背后隐藏着一个令人不安的现实:AI公司正在享用价值数十亿美元的“免费午餐”,即未经授权使用受版权保护的内容。 近期美国法院的判决似乎允许这种行为继续,这加剧了内容创作者的担忧,他们辛勤的创作成果正被大型科技公司用于构建价值数十亿甚至数万亿美元的AI系统,却几乎得不到任何补偿。这种“免费内容”模式是否可持续?内容创作者又该如何维护自己的权益?本文将深入探讨AI训练数据版权争议、法院判决、行业现状以及可能的解决方案,为读者呈现一个关于AI版权的复杂图景。
法院判决:公平使用原则下的倾斜天平
2025年6月,两项关键的联邦法院判决确立了“公平使用”原则在AI训练中的适用性。在 Kadrey v. Meta 案中,法官 Vince Chhabria 批准了 Meta 的简易判决,裁定使用受版权保护的书籍来训练AI构成公平使用。尽管他表达了对这种做法的担忧,并警告称“在大多数情况下”,AI训练使用受版权保护的作品可能是非法的,但他仍然认为Meta的做法在当前情况下属于合理范畴。
类似地,在 Bartz v. Anthropic 案中,法官 William Alsup 裁定 Anthropic 使用受版权保护的书籍进行AI训练,如果这种使用具有足够的“变革性”,则构成公平使用。尽管 Alsup 同时裁定 Anthropic 使用盗版书籍的行为构成侵犯版权,但这一区分凸显了一个关键问题:法院可能接受AI训练作为公平使用,但AI公司对内容来源的漠视令人担忧。
这两项判决共同确立了一个原则:在“公平使用”原则下,AI公司可以使用受版权保护的内容进行训练,而无需向创作者支付费用。这无疑是对内容创作者的一大打击,也引发了关于技术创新与内容版权保护之间平衡的深刻讨论。
经济效应:免费内容背后的巨大利益
OpenAI 的估值高达 900 亿美元,微软因AI投资而增加了超过一万亿美元的市值。这些惊人的数字背后,是建立在大量“免费内容”之上的AI系统。法庭文件显示,Meta 曾试图获得书籍的许可,但由于出版商要求的条款“不可扩展”而放弃。这意味着,问题的关键不在于寻找合法或非法的内容来源,而在于是否需要向创作者付费。当支付报酬会影响利润时,他们直接选择“免费内容”,并以公平使用为辩护理由。
这种“免费内容”的经济模式,使得少数科技巨头能够迅速积累财富,而个体创作者却无法从中受益。这种不平衡的利益分配,进一步加剧了内容创作者的不满和担忧,也引发了关于AI伦理和版权公平的广泛讨论。
谁在获益?大型出版商与个体创作者的鸿沟
在“AI版权”的讨论中,一个不容忽视的现象是,大型出版商正在通过与AI公司的授权协议获得巨额收益,而个体创作者却几乎一无所获。据报道,新闻集团与 OpenAI 达成了一项价值数千万美元的协议。《美联社》、《金融时报》和路透社也都签署了类似的协议。
这种差异源于规模、影响力和法律资源的不对等。大型出版商控制着数百万篇文章,并且有能力承担多年的法律诉讼。个体创作者则缺乏这些优势。这种“双轨制”系统造成了两个阶层:大型出版商可以通过谈判获得报酬,而其他人的作品则在“公平使用”原则下被无偿使用。个体创作者在面对拥有无限法律预算的科技巨头时,显得异常无力。
“公平使用”:对创作者公平吗?
对于许多内容创作者而言,“公平使用”原则的适用,实际上是不公平的。作者协会首席执行官 Mary Rasenberger 对此表示不满:“我们不同意使用盗版或扫描书籍来训练大型语言模型是公平使用的决定。” 然而,反对意见并不能改变现实。法律先例已经允许AI公司在未经支付报酬的情况下使用受版权保护的内容,并称之为“变革性的公平使用”。
这种判决结果,反映了法律体系在保护知识产权方面的一种转变,即从保护个体创作者转向优先考虑技术创新。即使技术直接从创作者的作品中获利,法院也更倾向于支持AI公司的发展。这无疑给个体创作者带来了极大的挫败感,也引发了关于“公平使用”原则的合理性和适用范围的质疑。
反击:个体与组织的抗争
尽管面临重重困难,内容创作者们并没有放弃抗争。 纽约时报 采取了一种不同的策略。他们没有争论AI训练是否构成“公平使用”,而是关注 ChatGPT 的实际输出。他们证明,AI会复制其文章的“近乎逐字摘录”。法官 Sidney Stein 允许他们的案件继续审理,这为其他内容创作者提供了新的思路。
在2025年2月,出现了一个罕见的案例:创作者在法庭上击败了一家AI公司。 Thomson Reuters 击败了 Ross Intelligence,因为 Ross 使用 Westlaw 的法律标题来构建直接竞争对手。法官 Stephanos Bibas 裁定这不是“变革性的”。“Ross 获取标题是为了更容易开发竞争性的法律研究工具,”他写道。这一区分至关重要。Ross 并非在构建通用AI,而是使用 Thomson Reuters 的作品直接与 Thomson Reuters 竞争。这个案例表明,即使法院可以接受AI公司将内容用于更广泛的目的,但仍然认为直接竞争是有问题的。
与此同时,一些专业组织也在继续进行集体斗争。作者协会一直在倡导作家的权利,尽管多次在法庭上败诉。音乐行业组织已经对AI音乐生成器提起了诉讼。视觉艺术家们则通过概念艺术协会等组织来维护自己的权益。
曙光:自愿授权与欧洲的版权保护
一些AI公司已经开始意识到这些问题。由于无力承担大规模的法律诉讼,一些较小的公司正在自愿寻求授权协议。一些公司还实施了选择退出系统,允许创作者将其作品排除在训练数据之外。
与美国法院对“公平使用”的宽松解释不同,欧洲司法管辖区为内容创作者提供了更有意义的保护。《欧盟AI法案》要求AI公司实施选择退出技术,并尊重创作者将他们的作品排除在训练数据之外的请求。根据第53条,AI公司必须建立版权政策,并使用技术来尊重选择退出请求。到2025年8月,他们必须提供训练数据来源的详细摘要。不合规的处罚是巨大的,因此尊重选择退出请求在经济上是合理的。
这些措施包括:
- Robots.txt文件:网站级别的阻止,防止AI爬虫访问内容。
- TDM Reservation Protocol:JSON文件,允许对AI训练活动进行特定限制。
- HTML元数据标签:嵌入在内容中的指令,禁止AI训练。
- Do-Not-Train注册表:中央数据库,创作者可以在其中注册作品以进行排除。
英国政府也在朝着类似的方向发展。2024年12月的一项咨询提出,除非权利持有人选择退出,否则AI训练可以例外,该咨询收到了超过11,500份回复。
可行的解决方案:实时来源归属
一个可以解决创作者认可问题的技术解决方案是在AI响应中实施实时来源归属。与其争论训练数据的合法性,不如让AI系统引用告知每个输出的具体来源,类似于学术论文。
Perplexity AI 展示了这种工作方式,为每个声明提供具体的引用。麻省理工学院的数据出处倡议正在开发跟踪数据集沿袭的工具,允许从业者识别哪些来源促成了输出。
对于创作者来说,这提供了认可。当他们的作品影响AI响应时,他们会获得信用。用户可以发现原创作者。这创造了通过认可而不是直接许可付费来建立受众和货币化的途径。
挑战在于开发归属系统,在不损害AI公司商业模式的情况下,为创作者提供信用。行业团体支持透明度,但强调保护商业机密。欧盟的透明度要求可能会使归属系统比更广泛的训练限制更具吸引力。
未来展望:创新与版权的平衡
2025年的判决确立了在未经创作者补偿的情况下,AI训练使用受版权保护的内容可以构成“公平使用”。当他们的作品为价值数十亿美元的AI系统提供支持时,个体创作者的追索权有限,但正在出现可以提供认可和价值的替代策略。
抗争仍在继续。纽约时报 的案例可能会为AI输出建立新的先例。专业组织正在建立集体谈判能力。欧洲立法提供了积极的保护。归属技术可以为创作者认可创造新的途径。
对于内容创作者而言,这可能是一个令人沮丧的时代,因为他们的作品正在为AI公司的巨额利润做出贡献,而他们自己却没有得到公平的报酬。然而,通过集体行动、技术创新和更严格的版权法规,内容创作者可以争取到更加公平的未来。
结论:坚守与希望
我们正在经历一场创造性价值的重大转移。数十亿美元的人类创造力现在为AI系统提供支持,这些系统为少数公司带来了巨额利润,而原创作者却一无所获。法律体系已经认可了这种方法,优先考虑创新而不是创作者补偿。
对于大多数个体创作者来说,这种情况令人沮丧。你无力起诉万亿美元的公司。你无法证明法院要求的特定类型的市场损害。你无法与捆绑数百万篇文章并有影响力谈判实际许可协议的出版商竞争。
个体创作者可能感到无力,但他们并不孤单。有时坚持就是你所拥有的一切:继续工作,继续创造,并继续支持那些为公平报酬而奋斗的组织。 在“AI版权”的迷雾中,坚守创作的初心,并积极寻求改变的可能,或许是内容创作者们能够抓住的最后一根稻草。 唯有持续的努力,才能最终打破“免费内容”的怪圈,构建一个更加公平和可持续的创作生态。