21世纪经济报道见习记者肖潇 北京报道
编者按
站在2024年,AI带来的版权问题日渐白热化,国内外已有不少案件涌入司法并落槌,争议、担忧、混沌……新产业与旧秩序缠斗在一起,左右互搏。训练数据版权侵权何解?生成物是否为作品,谁拥有著作权?生成物侵权责任如何划分?产业链愈发精细下,权责如何分配?避风港原则如何适用?......
当然这不仅仅是法律问题,也事关经济业态、商业模式、产业健康可持续发展。AI的幻影叠落进现实,传统行业寻求新出路,新的利益分配格局需要新的规则,我们处在哪里,要抵达到何处?依旧没有答案。4月26日是世界知识产权日,南财合规科技研究院基于此前长期对AI治理的研究,将推出“AI版权战事”系列,与各界共同寻求解法。
随着版权摩擦的加剧,AI公司们已经意识到,要在这个竞争激烈的新兴地带分一杯羹,必须调整和重视它们的版权战略。
就在最近,谷歌因未妥善使用法国新闻内容训练AI而被罚款2.5亿欧元,目前正和法国新闻出版商重新商谈合作。去年12月以来,OpenAI与多家新闻出版商官宣商业合作关系,谷歌与“美国贴吧”Reddit达成版权合作……
这些密集合作中,我们能看到哪些版权纠纷的解法?一方面,欧盟做出了一个示范,强调提供退出机制和透明度,保障版权方利益。另一方面,21世纪经济报道记者梳理全球AI方和版权方的合作动态,发现版权报酬、责任分配仍然是谈判中的暗雷。
在给美国知识产权局的回复函中,几乎所有AI大公司都否认了版权付费的合理性。受访专家指出,这是因为大模型的训练过程到底能归类于版权法上的何种行为,还没有明确结论。合作如同在不稳地基上搭建起来的积木楼,充满不确定性。
违反透明谈判原则
单看法国这一次对谷歌2.5亿欧元的罚款,是基于谷歌曾经的版权合作承诺,以及欧盟的《单一数字市场版权指令》。
2022年,谷歌跟280家法国新闻媒体机构签署了版权承诺,如果搜索引擎继续抓取新闻,要向新闻出版商支付版权补偿费用。除此之外,协议还确定了“透明、客观、非歧视”的版权报酬谈判原则。
而法国竞争管理局今年发现,谷歌在训练Gemini的过程中违背了承诺:在透明度上,谷歌没有告知新闻机构Gemini使用了它们版权内容,更没有说明使用方法;在退出机制上,尽管谷歌推出了Google Extended技术——新闻媒体可以在网页中插入名为““no index”的标签,拒绝被网络爬虫抓取成为大模型Gemini的训练素材。但插入这一标签也意味着新闻将在谷歌搜索中完全消失,因此并不是一种有效的拒绝方式,阻碍了新闻机构的谈判能力。
同济大学法学院助理教授、上海市人工智能社会治理协同创新中心研究员朱悦此前向21世纪经济报道记者解释,对于版权方的利益保护,退出机制和透明度很重要。比如透明度能为各方提供充分信息,版权方就能有更多证据去争取有利的补偿。
朱悦指出,欧盟的《人工智能法案》也基本沿用了这一表述,包括尊重版权方作出保留的权利,要求AI系统的透明度。不过AI具体要披露哪些信息、如何披露,《人工智能法案》没有详细规定,各国监管可能会逐步细化细则。
根据法国竞争管理局的要求,谷歌下一步要做的,首先是详细向法国新闻出版商说明,Gemini从训练到输出如何使用了他们的新闻报道。谷歌还需要提供一种技术解决方案,能让新闻机构拒绝为谷歌大模型提供训练素材,这一退出机制的有效性是法国监管机构未来的关注重点。
“和出版商的谈判变得复杂”
事实上,从去年7月以来,谷歌、OpenAI、苹果已经在就AI版权问题与多家版权方洽谈合作,但不同于谷歌跟法国新闻机构有着明确约定,AI方与版权方的合作存在更多模糊地带。
拥有超过230家出版物的欧洲媒体巨头Axel Springer是全球第一个分到蛋糕的版权方。去年12月OpenAI在博客中表示,公司今后可以在大模型的训练中使用Axel Springer的报道,此外,ChatGPT还能帮用户总结Axel Springer的报道,并展示原始报道的出处和完整链接。
这笔交易的财务信息并没有披露,据《华尔街日报》报道,作为各自行业的巨头,交易费用预计为数千万美元。
规模更小、更独立的出版机构能分到的蛋糕要小得多。The Information透露,OpenAI计划每年向一些媒体公司提供100万到500万美元的费用,以用其新闻训练大模型。这个数额对于小型媒体来说也非常微薄,因此交易结果并不被大众看好。
定价是版权合作中的烫手山芋,《纽约时报》就是“谈崩了”的典型例子。去年4月《纽约时报》开始与OpenAI谈判,但始终没能达成任何付费许可协议。12月27日,《纽约时报》正式将OpenAI告上法庭,指控它们未经许可使报道内容训练AI,要求承担“数十亿美元的法定和实际损失”,标志合作彻底破裂。
北京大学新闻与传播学院教授胡泳在文章中分析,OpenAI的报价很可能与《纽约时报》的预期相差过大,定价策略将非常关键。
胡泳认为,作为AI“训练素材”的数据价值已经有了根本性调整:以前获得价值要开放数据,现在则要锁定数据。在搜索引擎时代,数字版权报价主要基于内容的曝光量和曝光带来的广告收入,而现在根据大模型公司的盈利方式定价可能是最合理的模式,比如利润分享或者按API访问次数收费。
但难题在于大模型产业尚未成熟,盈利能力、营收方式还充满变数。胡泳也提到:“所有现在采用统一定价的公司将来都会后悔这样做。它们没有意识到自己的数据到底有多值钱,也没有意识到货币化窗口有多小。”
同济大学法学院副教授陈吉栋在采访中表示,随着AI训练的需求变化,利用“作品表达”逐渐演变为利用“数据”,而数据在我国的法律定性还未明确,这确实为开展AI训练带来一定的不确定性。
陈吉栋指出AI公司主动寻求和版权方合作,本质是在规避风险。尤其需要注意的问题是合作授权是否存在瑕疵——比如有没有使用有个人信息的数据、能不能保证数据安全底线。以及如果未来出现侵权问题,双方约定怎么分配责任。
这些版权利益谈判的难题,从谷歌的经历中可见一斑。谷歌在官方博客中写道:“由于缺乏明确的要求,以及接二连三的法律诉讼,我们与新闻出版商的谈判变得很复杂,这阻碍了我们未来投资法国信息领域的考虑。我们以及其他市场参与者需要更清楚地了解,我们到底要向谁付费,要为什么付费。”“在无法预测准确方向的情况下,确定行动方针非常复杂。”
AI“学习过程”难定性
归根结底,训练AI到底涉及哪些版权法规制的行为?
美国版权局(Copyright Office)在去年8月到11月之间,公开要求各界回复对训练AI使用版权材料的看法。21世纪经济报道记者整理后发现,几乎所有AI公司都反对训练AI需要版权许可和付费。
谷歌在回复函中解释,如果拆开看大模型训练过程的每一步——从抓取信息、复制输入到处理分析,只有最初的复制行为能落在版权法范畴中,其他行为不触发版权法。这也是许多大公司认可的观点。
OpenAI这样说明自己训练AI的技术步骤:首先,抓取互联网上公开可用的信息,或者是根据第三方商业协议获得信息;第二步,向模型“投喂”输入信息;第三步,模型将文本信息分解成一个个单词长度的token,计算哪些token经常一起出现,并转换为一串统计概率;Transformer架构进一步分析所有文本,比如哪个单词对于理解一句话的意思最重要,让AI捕捉到语言的深层结构和模式;最后将这些统计关系留在模型中,完成大模型的预训练。
简而言之,大模型记住的是统计关系,而不是文本本身。OpenAI表示,大模型的每串数字(即权重)反映了不同单词在不同情况下的统计关系。当有人发出指令时,大模型调用权重预测下一个词和句子——不会通过数据库重新访问版权作品,也不会直接复制粘贴作品的内容。
但上海大邦律师事务所高级合伙人游云庭提醒,人们可能不知道、也很难证明作品输入进大模型后就“不存在了”。事实上AI完全可以重现版权作品的副本,《纽约时报》起诉OpenAI的声明,就指出了ChatGPT可以几乎一字不差地复述《纽约时报》报道原文,这是训练AI需要获得版权授权的一个有力证据。
在陈吉栋看来,AI的困惑之处在于,它看起来在同时进行“精确复制”和“合理使用”。如果细看大模型训练过程的每一步,可能没办法归类于现在版权法中的任何一种行为,因此难以进行法律定性。
广东财经大学法学院教授姚志伟也认为,AI的训练过程,确实很难认定为复制等著作权专有权利。现在很流行的观点是训练AI是一种学习行为,类似于读一本书。
“但问题是,在所谓的学习过程中肯定会复制作品,这就涉及了版权法的复制权。理论上也可以说训练大模型不是为了复制作品,复制只是一种‘中间’行为。所以如果训练AI本身是合理使用,那么复制这种中间行为应该被吸收,有复制行为也不构成侵权。” 姚志伟指出,这种理论在日本《著作权法》和美国的司法案件中有一定体现,但在中国法中没有立法依据,能否在司法上得到认可具有很强的不确定性。
陈吉栋认为,将机器学习类比为人类学习是一种技术解读。如果回归到立法初衷,会发现著作权法旨在鼓励人们学习、创造、推动知识的传播,而AI背后直接承载着商业目的、间接负担着知识传播,跟人类学习有着本质区别。在陈吉栋看来,即使是普通人在利用作品学习的时候,一般也要付出相应的代价,只有部分情景才会被认定是合理使用。就算AI训练被认定为学习行为,也很难适用合理使用这样的豁免性条款,不去支付对价、承担侵权风险。
“值得继续思考的是,在传统观念中,只有人类才能从事创造性活动,所以要制止损害人类创造性活动的行为。现在AI开始展现出创造能力,版权法的作品根基可能被撼动。AI技术迅速发展并汇聚了大量投资,是否还需要版权制度来激励?如果未来投资热潮过去,是否又应该探索新的方式来激励创新活动?”陈吉栋告诉21世纪经济报道记者。
(作者:肖潇 编辑:王俊)
南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。