数据投喂大模型训练 AI时代如何划定版权边界
2024-09-14
AI大模型时代,随着AI生成内容作品的数量不断增多,这其中存在的版权问题显得愈发引人注目,用人类的作品 喂给 AI进行训练之后生成的作品,算 借鉴 还是算 抄袭 ?如果AI训练必须执行严格的版权规定,那么AI大模型在训练过程中学习过一万个人的作品,是否要经过这1万人一一授权?如果AI训练不执行版权保护,那么优秀的原创作品是否经过AI 二创 就会堂而皇之变成他人的作品? 对于AI大模型训练过程中所遭遇的版权问题,新京报贝壳财经记者采访了多位专家。 声音、图像、文字作品成为大模型 养料 什么情况该维权? 专家:看交易成本 8月26日,北京互联网法院发布服务保障新质生产力十大典型案例,其中包括殷某某诉某智能科技公司等人格权侵权案,该案也是全国首例 AI声音侵权案 。 在该案中,一名配音演员的声音在AI画处理后,成为了文本转语音产品,并被某科技公司运营的云服务平台对外出售。而在此过程中, 经手 配音演员声音的除了该云服务平台外,还有曾委托该演员录制录音制品的某文化传媒公司,以及进行AI化处理的某软件公司。最终,法院经审理后判决,云服务平台、软件公司向原告书面赔礼道歉,文化传媒公司、软件公司赔偿原告经济损失25万元。双方当事人均未提起上诉。 不过,与该案中AI仅是从一名配音演员中提取声音相比较,实际上大多数大模型用以训练数据的声源并不止一个。以音乐为例,AI音乐生成大模型SUNO或许从数据库里学习了几十亿首曲子,如此多的音乐素材,如果均要事先获得许可方能使用,交易成本是极其高昂的。 对此,有技术从业者认为,若要过于强调AI训练过程中数据来源的版权问题,可能AI技术根本就无法发展到当前阶段。事实上,AI技术的进步反而促进了行业发展,如根据中国传媒大学课题组发布《中国数字音乐平台发展现状与展望》报告,以AI为代表的科技创新在数字音乐产业的应用已日趋成熟,网易云音乐和小冰公司共同推出了AI音乐合成软件 X Studio ,酷狗音乐推出了 AI音乐魔法 和 AI音乐制作人 ,AI展现出了巨大的潜力和广阔的发展前景。 对于这一矛盾,在中央民族大学法学院副教授熊文聪在第二十四期E法数字音乐论坛上分享称,对此,我国著作权法有 合理使用 的制度,合理使用有两种类型: 保障特定公益 型合理使用,如阅读障碍者使用已发表作品; 交易成本过高 型合理使用,如对设置或者陈列在公共场所的艺术作品进行临摹、绘画、摄影、录像。 交易成本取决于两个要素,抓取、复制和收集的素材内容数量特别大,甚至要到千万量级。海量作品的版权人非常分散,没有集中在个别主体手中,结果导致想要及时找到这些权利人一一签订许可使用协议的成本非常高。 熊文聪说, 例如,AI音乐生成所需要训练的音乐素材假使要1000万首音乐,这1000万首音乐假如集中在一家音乐公司,前去交易的成本并不高,但如果有1000万个版权人,每个人都去签合同,交易成本就会变得非常高。 熊文聪告诉贝壳财经记者,在北京互联网法院发布的案例中,AI只用了配音演员一个人的声音,而不是从千万个配音师的声音中合成出一个 谁也不像 的声音,交易成本并不高,事先找到配音师获取许可也没有问题,因此在这种情况下,就需要事先获得授权。 欧盟《人工智能法》的启示: 我国著作权制度有必要细化复制权的调整范围 今年3月13日,欧洲议会议员以523票赞成,46票反对,49票弃权批准了具有里程碑意义的《人工智能法》。 《人工智能法》的出台是为了确保在整个欧盟范围内提供一致和高水平的保护,实现可信赖人工智能系统的建立与应用,欧盟立法者希望通过统一的制度安排为欧盟市场创造统一、安定、高效的法治框架。 在中央财经大学副教授李陶看来,欧盟的《人工智能法》对我国著作权制度创新有所启示,第一,从著作权保护规则看,我国的著作权制度有必要细化复制权的调整范围,明确被允许使用的 临时复制 的构成要件。 当前,在全球范围内已经出现了多个权利人依据复制权侵权维权的案件,如纽约时报在针对OpenAI的起诉书中认为,聊天机器人向用户提供了《纽约时报》文章的近乎逐字摘录,之所以OpenAI和Microsoft特别强调使用《纽约时报》新闻来训练他们的人工智能程序,因为这些材料被认为是可靠和准确的。 李陶对此建议,我国在《著作权实施条例》中对临时复制行为进行必要的界定,以完成技术发展和立法目的之间的适配。具体在立法中需要严格界定临时复制各个构成要件的内涵,为权利人和作为使用者的人工智能模型提供者创造可预期的法律依据。 熊文聪介绍,近年来欧盟、日本等国家或地区积极修订著作权法,增设了多项作品使用的例外情形,立法通过明确文本和数据挖掘技术利用他人作品的行为属于著作权的限制或例外,扫除AI发展过程中的法律障碍。其中,美国 合理使用 规则(特别是 转换性使用 )比较灵活。 在他看来,我国《著作权法》第24条没有列明文本和数据挖掘情形,且第(13)项 法律、行政法规规定的其他情形 是一个半封闭式的立法模式;在新《实施条例》尚未出台之前,唯一可行的方案是将TDM解释为第(2)项:为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品。 李陶表示,我国《著作权法》有必要增添有关保障通用人工智能模型提供者开展人工智能训练的合理使用和法定许可规则, 欧盟《人工智能法》明确了通用人工智能模型的提供者可以使用开源的著作权保护客体以及在欧盟文本和数据挖掘例外制度的适用下进行系统的开发和训练。我国应当尽快通过《著作权法》修订增添有关文本和数据挖掘的合理使用制度,以便让相关主体(特别是以科学研究为目的的主体)能够享受到技术带来的开发利用著作权法保护客体的便利。 但通过概念扩张完全免除以营利为目的相关主体的付费义务,会背离文本和数据挖掘原本产生的立法意图。因此,也可以在引入有关文本和数据挖掘合理使用规则的同时,考虑引入新的法定许可机制,以求保障创作者能够针对人工智能系统对其著作权法保护客体的开发与利用获得适当合理的报酬。 李陶说。数据投喂大模型训练 AI时代如何划定版权边界
## 数据投喂大模型训练 AI 时代如何划定版权边界 随着人工智能技术的飞速发展,大语言模型的训练需要大量的文本数据。这些数据的来源广泛,包括互联网、书籍、报纸、杂志、论文等。在这个过程中,涉及到了版权的问题。 一方面,模型训练需要使用大量的文本数据,这些数据的版权归属并不明确。如果模型训练公司直接使用这些数据进行训练,可能会侵犯原作者的版权。另一方面,模型训练公司在训练完成后,可能会将模型输出的文本用于商业用途,如生成广告文案、新闻报道等。如果这些文本涉及到原作者的版权,那么模型训练公司就需要获得原作者的授权或许可,否则就会侵犯原作者的版权。 为了解决这个问题,一些国家和地区已经开始采取措施,加强对数据投喂大模型训练的版权保护。例如,欧盟在 2018 年通过了《版权指令》,要求在线平台对用户上传的内容进行版权审查,以避免侵犯版权。美国也在考虑通过立法来加强对数据投喂大模型训练的版权保护。 除了加强版权保护之外,还需要建立合理的数据使用机制,以平衡版权所有者和模型训练公司的利益。例如,可以建立数据共享平台,让版权所有者和模型训练公司可以在平台上进行数据交易,以实现数据的最大化利用。同时,也可以建立数据信托机构,负责管理和分发数据,以保护版权所有者的利益。 此外,还需要加强对人工智能技术的监管,确保模型训练公司遵守相关法律法规,尊重版权所有者的权益。监管机构可以通过制定相关标准和指南,规范模型训练公司的数据使用行为,防止侵权行为的发生。 总之,数据投喂大模型训练是人工智能发展的重要环节,但是需要在保护版权的前提下进行。我们需要加强版权保护、建立合理的数据使用机制、加强对人工智能技术的监管,以确保人工智能技术的健康发展。