论坛|如何强化大模型训练来源的著作权保护
2024-09-14
央广网北京9月5日消息(记者 樊瑞)人工智能赋能千行百业同时,也给社会各领域带来变革,著作权就是首先受到冲击的领域之一。 近日,在第二十四期E法数字音乐论坛上,中央财经大学法学院副教授李陶表示,人工智能产业发展需要尊重在先知识产权,已经成为业内基本共识。他指出,我国的著作权制度有必要细化复制权的调整范围,建议我国应尽快完善已有的著作权集体管理制度。 欧盟《人工智能法》:开发训练模型需先获授权 2024年3月13日,欧洲议会议员以523票赞成,46票反对,49票弃权批准了具有里程碑意义的《人工智能法》,这是全球首部全面监管人工智能的法律。 李陶介绍了欧盟《人工智能法》采用的分级分类建立规制机制的方法。从横向维度上看,《人工智能法》明确了可运用人工智能系统的多个行业和场景,包括医疗保健、农业、食品安全、教育和培训、媒体、体育、文化、基础设施管理、能源、运输和物流、公共服务、安全、司法、资源和能源效率、环境监测等;从纵向维度上看,《人工智能法》以禁止的人工智能应用、高风险的人工智能应用、低风险的人工智能应用、最小风险的人工智能应用为标准。 《人工智能法》又是如何规定著作权?李陶表示,在责任主体方面, 通用人工智能模型的提供者 是著作权责任承担的主要主体。欧盟《人工智能法》要求通用人工智能模型提供者应制定相称的透明度报告,包括起草和更新说明文件,提供有关通用人工智能模型的信息(包括合规信息)供下游提供商使用,以及向人工智能办公室和其他国家主管部门提供。同时,还要求通用人工智能模型的提供者在开发、训练模型的过程中,对著作权法保护客体的任何使用都需要取得授权,除非这些使用属于欧盟著作权制度权利限制规则中的内容。 专家建议完善著作权集体管理制度 当下,国际上已有数个因训练大模型引发的著作权争议案件,目前均还处于法院审理阶段。 2023年2月,全球知名版权图库网站Getty Images控告Stability AI,从其图库中复制超过1200万张图及相关的标题和元数据用于盈利,对其版权造成侵害;2023年12月27日,《纽约时报》起诉OpenAI和微软,状告两者涉嫌未经授权使用《纽约时报》数百万篇文章训练人工智能。《纽约时报》在针对OpenAI的起诉书中指出,聊天机器人向用户提供了《纽约时报》文章的近乎逐字摘录。 之所以OpenAI和微软特别强调使用《纽约时报》新闻来训练他们的人工智能程序,因为这些材料被认为是可靠和准确的。 李陶告诉央广网记者,在训练大模型中,高质量的数据信息非常重要。李陶强调指出,人工智能产业发展需要尊重在先知识产权,已经成为业内基本共识。他认为,我国的著作权制度有必要细化复制权的调整范围,即应明确被允许使用的 临时复制 的构成要件。具体在立法中需要严格界定临时复制各个构成要件的内涵,为权利人和作为使用者的人工智能模型提供者创造可预期的法律依据。 此外,李陶还建议,我国应尽快完善已有的著作权集体管理制度,特别是完善集体管理组织的内部治理、外部监管规则,确立并建立对非会员权利的集体管理制度。 高质量、可信赖的人工智能系统需要通过高质量的数据集完成训练,这些数据集合中包含了著作权法所保护的客体 ,李陶介绍,为了在合法的框架下利用高质量数据集进行训练,OpenAI已经和包括美联社、阿克塞尔·斯普林格在内的多家新闻出版集团达成了使用其著作权法保护客体的协议。 他指出,高效运行的著作权集体管理机制可以实现权利人和使用者的利益平衡,在保障权利人权利的同时,促进使用者取得授权,并开展利用版权保护客体的行为。 李陶还表示,我国在在制定人工智能相关的法律时,应当在明确责任主体的同时,要求其承担训练数据的来源说明。论坛|如何强化大模型训练来源的著作权保护
# 论坛|如何强化大模型训练来源的著作权保护 近年来,随着人工智能技术的快速发展,大模型训练成为了人工智能领域的一个热门话题。大模型训练需要大量的计算资源和数据支持,因此,许多公司和研究机构都投入了大量的资金和人力进行大模型的训练。然而,在大模型训练过程中,如何保护训练来源的著作权成为了一个亟待解决的问题。 目前,大模型训练来源的著作权保护存在一些问题。首先,大模型训练涉及到大量的数据和代码,这些数据和代码的著作权归属不明确,容易引发著作权纠纷。其次,大模型训练的过程中,往往需要使用第三方的计算资源和数据,这些资源和数据的著作权归属也不明确,容易引发侵权纠纷。最后,大模型训练的结果往往是一个新的模型,这个模型的著作权归属也不明确,容易引发著作权纠纷。 为了解决大模型训练来源的著作权保护问题,我们可以采取以下措施: 一、明确大模型训练来源的著作权归属。在大模型训练过程中,应该明确数据和代码的著作权归属,以及计算资源和数据的使用许可协议。 二、建立大模型训练的知识产权保护机制。建立大模型训练的知识产权保护机制,包括知识产权的申请、保护和维权等方面。 三、加强大模型训练的监管。加强对大模型训练的监管,防止侵权行为的发生。 四、促进大模型训练的开放和共享。促进大模型训练的开放和共享,提高大模型训练的效率和质量。 总之,大模型训练来源的著作权保护是一个亟待解决的问题。我们应该采取有效措施,明确著作权归属,建立知识产权保护机制,加强监管,促进开放和共享,以保护大模型训练来源的著作权。