一文读懂：AI大模型训练中的核心版权问题

AIGC大模型的快速崛起，在重塑内容行业创作逻辑、赋能人们工作生活的同时，也引发了版权制度层面一系列新的挑战。相较于AI生成内容的版权属性和权利分配，大模型训练阶段究竟涉及哪些版权利用行为，这一过程可能存在哪些侵权风险，以及如何借鉴域外既有探索，从产业发展角度搭建科学的大模型训练责任豁免机制，更为各界所关注。在全球各国纷纷发力AIGC领域的大背景下，迫切需要对于上述议题加以研究、探讨，以减少技术进步和产业发展面临的不确定性。

问题提出：
大模型训练中的版权争议备受关注

1.这是探讨大模型版权所有问题的起点

一方面，大模型训练问题存在于生成式人工智能生命周期的伊始，如不能妥善解决，AIGC大模型的研发便始终处于侵权不确定状态。从行业实践和技术原理来看，目前各类生成式人工智能利用海量内容数据进行模型训练的方法大致可抽象为如下两步：第一步，通过购买数据库、公开爬取等方式获得海量内容数据，进行一定形式的转换之后，存储在相关服务器之中；第二步，对内容数据进行分析处理，以发现一定的模式、趋势以及相关性并转变为大模型参数，供后续内容生成时调取使用。

另一方面，当下生成式人工智能领域的版权纠纷大都聚焦于，模型训练阶段未经授权的版权利用行为。据不完全统计，自2022年11月至2023年10月，仅美国加州北区法院便已经受理了10起，版权人起诉Stability AI、Open AI、Meta、Alphabet等AIGC研发企业未经授权，利用版权作品进行模型训练的案件。2023年6月，国内在网络教培行业也曾发生过，未经授权利用第三方平台作品数据进行大模型训练导致的纷争。

2.传统“授权许可模式”在AI时代的失灵

第一，授权的基础不明确，授予的是版权法上的何种权利有待论证。表面看AIGC模型训练行为类似于自然人阅读文字作品、欣赏美术作品后的“思考、吸收、再创作的行为”，这和既有的版权专有权利无法具体对应。[1]需要注意的是，模型对于作品艺术风格的学习模仿并不是版权法上规制的问题，艺术风格应当允许公众自由使用，这关系到表达自由与创意经济的发展。即便将这一行为纳入版权规制范畴，也存在版权人行权的现实困难。原因在于，AIGC模型训练行为本质上是一种机器内部的非外显性作品利用行为，版权人存在发现模型侵权、举证模型侵权以及侵权内容比对等方面的判定困境。

第二，授权的可行性存疑，存在规模过大、主体不明、机制困难等系列问题。AIGC模型训练涉及的作品数量众多、来源各异、权属不同，若采用事先授权许可的方式：一方面，需要精准地将受保护的作品从海量数据中进行分离、提取；另一方面，再找到每一部版权作品对应的权利人与之协商授权，并支付价格不一的授权费用。这一过程漫长复杂且极难落地操作。

第三，授权的意义待评估，可能产生“过度拟合”“寒蝉效应”“模型偏见”等负面效应。实践中，具有讽刺结果的是，任何限制模型训练内容规模与可用性的举措都可能产生意想不到的问题，即增加模型简单输出被训练作品复制内容的概率。此外，高昂的授权许可费用和侵权风险的不确定性，将可能直接带来人工智能技术和产业发展的“寒蝉效应”，并产生因数据规模不足和数据质量不高引发的“模型偏见”等不良后果。[2]

责任聚焦：
大模型训练涉及哪些版权规制行为？

从AIGC模型训练阶段的技术流程和基本原理来看，当我们谈及这一阶段的版权问题时，实际上讨论的是如何从版权法角度看待，“作品获取”“作品存储”与“作品分析”这三个行为。目前，整体来看只有“作品存储”行为可以纳入版权法“复制权”规制范畴，而更为核心的“作品分析”行为能否受到版权法规制仍值得探讨。

1.如何从版权法角度看待“作品获取”行为？

在“作品获取”阶段，需要关注内容数据获取合法性的问题，包括对数据库内容、网络公开内容等的获取是否合法，是否存在破坏计算机信息系统、违反数据爬取保护措施、违反API端口协议等行为。之所以对于模型训练阶段的版权问题探讨，将“作品获取”行为和“作品存储”行为加以区分，是因为后续伴随技术模式的发展，存在通过“云端计算”“联邦学习”等方式，在不存储数据的情况下，便可以通过对内容数据的接触获取而直接进行模型训练的可能。

从版权法角度看，“获取作品”或者说对于作品的接触类似线上浏览网页和线下阅读书籍，只接触不存在后续的传播利用大概率并不会触发版权侵权责任。这一阶段的核心版权问题主要涉及是否存在破坏作品“技术保护措施”的行为。根据我国《著作权法》规定，违反保护作品技术措施的规定亦构成侵权。即使在满足“合理使用制度”的情况下使用作品，但需要规避技术措施才可以获得该作品，如果此种规避并不符合《著作权法》第50条关于避开技术措施的豁免规定，则可以在认定满足合理使用的基础上，同时认定构成违反技术措施而承担侵权责任。[3]

2.如何从版权法角度看待“作品存储”行为？

应当说在模型训练阶段，对于内容数据的储存行为落入到版权法上“复制权”的规制范畴，没有过多疑问。但值得注意，伴随内容生产和传播领域新技术的应用，也需要我们思考是否存在过度孤立看待“复制权”的问题。因为“复制”往往仅是依附于“作品主要利用行为”的准备行为而已，若不存在复制之后的发行、广播、信息网络传播等版权法规制的作品利用行为，侵权损害实际上无从谈起，版权人也无从发现自身作品是否被利用。

时至今日，是否应为信息技术和商业模式的演进，预留出一定的“复制自由”，类似于“避风港制度”诞生之际创设的“缓存自由”一般，有待进一步探讨。[4]在最高人民法院2013年十大知识产权案件——“王莘（棉棉）诉谷歌公司等图书搜索案”中，核心争议便是在后续对于图书片段“信息网络传播行为”构成合理使用的情况下，前期的“复制行为”是否构成单独的侵权（北京一中院观点）或者可以被后续合理使用行为所吸收（北京高院观点）。

具体来看，在“谷歌图书馆案”一审中，北京一中院提出了在早期“文本与数据挖掘”案件中之所以需要单独认定“复制行为”的原因：一方面，以“使用”为目的而对作品进行复制，从实际损害来看，虽然不会使公众获得这一复制件，但使得复制者在无需购买合法复制件的情况下即可使用这一作品，这会影响到合法复制件的销售；另一方面，从潜在损害来看，侵权危险通常来源于他人以“传播作品”（如发行、广播、信息网络传播等）为目的而进行的复制行为。但从当下AIGC模型训练来看，对标上述逻辑分析：一方面，只要获取被训练内容数据的方式合法，实际损害这个问题便无需过度关注；另一方面，潜在损害也存在疑问，因为模型训练涉及的内容处理分析行为，本身能否构成版权法规制的行为，进而对版权人带来损害仍存在一定争议，下文会详细论述。

3.如何从版权法角度看待“作品处理”行为？

模型内部的内容分析处理行为对应版权法上的何种权利存在疑问，且理论界和实务界目前尚未有明确结论。有观点认为“作品处理”行为落入版权法中“改编权”的规制范畴，但所谓的改编权是指改编既有作品形成新作品的行为，然而对作品数据进行分析处理，并生成包含一定模式、趋势以及相关性的参数，这一过程不涉及新作品的形成，明显难以契合“改编权”的要求。也有观点表示由于现行《著作权法》缺乏具体权利对应“作品处理”行为，可以通过“权利兜底条款”加以规制。

还有观点认为，上述行为不属于版权规制的权利范畴。从目前广泛应用的AIGC产品模型来看，模型训练阶段的“作品处理”行为大致有两类：一类是“文生图”领域比如Stable Diffusion模型，通过对既有图像内容的分析处理，获得思想层面的艺术风格、感觉、灵感等作为模型参数加以存储；另一类是“文生文”领域比如GPT模型，是在统计学“自回归原理”下，不断学习海量在先作品中不同文字之间排列组合的概率和规律，然后内化为自身的模型参数。

版权法遵循“思想表达二分法”的基本逻辑，强调“不保护自然人的思想，只保护自然人对于思想的外在表达”。对于第一类“作品处理”行为，本质上仅是对作品思想层面艺术风格等的分析、学习，故而这一行为作用的对象不属于版权法保护的客体，行为本身便也不属于版权法可以规制的权利范畴。对于第二类“作品处理”行为，对于作品仅仅是进行统计学意义上文字组合概率的学习，不是为了使用和展示作品中的表达性内容，因此亦不属于版权法意义上的作品利用行为。

域外观察：
加速探索大模型训练责任豁免机制

本轮AIGC变革始于2022年11月底ChatGPT的发布，至今不足1年时间，各国版权立法尚未能做出针对性的调整。但在此前弱人工智能阶段，一些国家为促进本国AI产业发展，已经进行了版权立法改革探索，以豁免AIGC平台在模型训练阶段的版权责任。目前来看大致可分为三类：一是欧盟“文本与数据挖掘”模式；二是日本的“非欣赏性作品利用”模式；三是美国的“四要素分析法+转换性使用”模式。

1.欧盟“文本与数据挖掘”模式

早在2016年9月，欧盟委员会提出修改版权法以适应数字经济发展之初，“文本与数据挖掘”(Text Data Mining)便构成了此次修法的重点。欧盟指出，新技术能够对数字形式的信息进行自动计算分析，例如文本、声音、图像或数据。文本和数据挖掘使处理大量信息成为可能，以便获得新知识和发现新趋势。但文本与数据挖掘往往涉及大量受版权保护的内容，为了消除相关主体面临的法律确定性，实现对创新的激励，应当给予这一行为对作品或其他客体的复制和提取以责任限制或例外。

由此，在2019年3月26日最终通过的《单一数字市场版权指令》中，欧盟便在“第二章：使例外和限制适应数字和跨境环境的措施”下，创设了第3条“以科学研究为目的的文本和数据挖掘”和第4条不限制目的的“文本和数据挖掘”。具体内容如下图：

整体来看，目前绝大多数AIGC模型训练阶段的作品利用行为隶属于商业利用领域，仅适用第4条规定的“不限制目的的文本和数据挖掘”责任豁免情形。该规定对于“文本与数据挖掘”采取的是类似于“默示许可+‘opt-out’”的机制，有三点问题需要注意。

第一，该条规定豁免的核心是“文本与数据挖掘”过程中的“作品复制行为”。欧盟在《单一数字市场版权指令》“立法背景”中指出，为了文本和数据挖掘而进行的复制和提取（“提取”针对的是“数据库权利”中对标作品“复制”的权利）需要在合法访问的作品或其他客体上进行，特别是当为了技术流程而进行的复制或提取不符合关于“临时复制”（即“避风港制度”对应的缓存行为）的现有责任豁免条件时。由此来看，本文在第二部分关于“模型训练阶段版权侵权风险解构”的分析结论，未经版权人授权的模型训练行为，法律层面明显的侵权风险只涉及“复制权”，能够得到欧盟修法逻辑的验证。

第二，该条规定豁免的要件是“对于被训练作品和其他内容的获取是合法的”。欧盟指出，这种例外或限制只应适用于被豁免主体，“合法访问作品或其他内容的情况”，包括已在网上向公众公开以及权利人未以适当方式保留这一权利的情形。而在此前，由于大量有价值本文的数据库通常是收费的，因而文本与数据挖掘的例外情形并未在实质上减轻行为人获得许可的负担。但在本轮以ChatGPT等为代表的生成式人工智能场景下，模型训练涉及的内容大部分来源于CC（Common Crawl）、维基百科等网络公开数据，由此可以获得的责任豁免价值得以凸显。

第三，该条规定豁免的前提是“版权人未以适当方式保留文本与数据挖掘的权利”。欧盟强调，权利人应当能够采取措施，确保对于文本与数据挖掘的权利保留得到尊重。根据《单一数字市场版权指令》“立法背景”的说明，“以适当方式保留权利”可以做如下理解：对于已经在网上公开提供的内容，应该只考虑通过使用机器可读手段保留这些权利，包括相关的反爬等技术保护措施；在线下对于实体出版物的扫描利用等情况下，可以通过合同约定或声明等其他方式保留。简单来说，只要版权人不事先通过技术等方式保留自身权利，或者向模型训练平台发出专门通知，明确表示自己的作品内容不允许被训练，原则上模型训练平台就可以不经过版权人授权、不向其支付费用。

2.日本“非欣赏性利用”模式

2018年日本对《著作权法》进行了修改，在第30条第4款设置了新的合理使用条款——“不以欣赏作品原有价值为目的的利用”。根据日本文化厅的解读，此次修改整体上扩大了对于著作权的限制，其目的是鼓励创新，迎接以人工智能、物联网和大数据为代表的第四次产业革命。[5]值得注意的是，新一轮的日本《著作权法》修正案已于2023年5月17日通过参议院表决，并未对第30条第4款进行修改。这一定程度上也表明了立法者认为该条能够涵摄本轮生成式人工智能带来的版权制度挑战。

依据该条规定，AIGC模型训练阶段的版权利用行为可以适用“不以欣赏作品原有价值为目的”的责任豁免，符合该条列举出的“用于信息分析的情形”和兜底性“在电子计算机信息处理过程中对作品表达所进行的不被人类感知和识别的使用情形”两项要求。因此，只要模型训练阶段的作品利用行为，不存在“根据作品的性质、目的和使用情况，不合理地损害版权人利益”的情形，大概率可以受到第30条第4款的责任豁免。

对于日本《著作权法》“不以欣赏作品原有价值为目的利用”的责任豁免，可以从以下几个方面把握适用的关键。第一，该规定本质上对应的是作品的“非表达型利用”，与其说是侵权责任的豁免，不如说是对版权法中一类非侵权行为的明确。本条款列举的具体情形，对应的是“不以欣赏作品原有价值为目的利用”，实际涉及的是对于作品的信息分析以及机器内部的加工处理，都不是为了向公众传播被利用作品的表达性内容，也即不属于版权法意义上的作品使用行为。

第二，该规定豁免的行为类型并不限于“作品存储行为”，而是“必要范围内任何利用作品的方式”。由此，可以避免AIGC模型训练阶段对于各类具体行为属性认定带来的纷争，例如“作品处理行为是否受到《著作权法》权利范畴的规制”。一定程度上可以说，日本“不以欣赏作品原有价值为目的利用”责任豁免模式，给予了模型训练研发方更明确的行为预期。

第三，该规定存在适用上的限制条件即“但因作品的种类、用途及利用方式等原因，不当损害著作权人利益的，不在此限”。前文已述，从目前AIGC模型内容生成模式来看，模型训练行为是否落入版权法专有权利规制的范畴存在疑问，因此并不会与版权人正常行使权利产生明显冲突。此外，因为模型训练行为本质上是对于在先作品“非表达型的利用”以及对于思想层面风格、感觉的学习，所以也不会对作品原有传播利用市场产生明显替代效应。

2023年5月，日本政府公开了自身对于版权法领域模型训练行为的态度——不会对AIGC模型训练中使用的内容加以版权保护。日本文部科学大臣长冈惠子(Keiko Nagaoka)表示，日本法律不会保护AIGC模型训练集中使用的版权材料，也即允许AIGC模型训练对于版权人作品的利用，无论是出于非营利或商业目的，无论是复制还是复制以外的行为。这在一定程度验证了，日本《著作权法》第30条第4款“不以欣赏作品原有价值为目的利用”的责任豁免，能够适用于当下的AIGC模型训练行为。

3.美国“四要素分析+转换性使用”模式

2023年5月17日，美国国会召开“交互中的人工智能与版权法”听证会，美国版权局前总法律顾问Sy Damle表示：“任何强制模型对于训练内容付费许可的尝试，要么会使美国AI行业破产，消除我们在国际舞台上的竞争力；要么会驱使这些头部AI公司离开这个国家。”美国之所以成为全球AI产业的研发中心，很大原因依赖于版权法中独一无二、广泛灵活的合理使用条款，相信其依然可以适用于AIGC模型。这些模型从数十亿的训练数据中提取抽象的概念和模式（concepts and patterns），并创造出不同于且不侵权既有作品的全新内容。

美国版权法以“例示列举+一般要件”的方式对合理使用制度进行了规定，具有高度灵活性。第107条规定，任何特定案件中判断对作品的使用是否属于合理使用时，应考虑的因素包括：（1）使用的目的与性质；（2）该版权作品的性质；（3）使用部分占被利用作品质与量的比例；（4）该使用对版权作品潜在市场或价值所产生的影响。这被称为合理使用认定“四要素标准”。

“商业性质的使用”最早被排斥在美国合理使用的范畴，无偿使用他人作品牟利被认为有违公平正义的一般原则。但在随后的司法实践中，美国法院从“四要素标准”中的“使用目的与性质”慢慢延伸出了“转换性使用规则”。由此，“商业性质的使用”不再是合理使用认定的关键,重要问题是考察新作品的“转换性”程度。例如在备受关注的“谷歌图书馆案”中，美国联邦第二巡回上诉法院认为谷歌将数字化后的图书存放于服务器，供用户以“检索有限文字片段的方式”发现所需图书，不构成对原有图书购买市场的替代，符合转换性使用的要求。

高度灵活性的“四要素标准”与“转换性使用规则”,给予美国法院在个案中认定特定行为是否构成合理使用存在高度的自由裁量空间，也使得论证模型训练适用合理使用的正当性存在可能。对于ChatGPT类产品而言，模型训练阶段的作品使用具有较强的目的转换性,即“对于作品的利用没有将该作品的独创性表达传播给社会大众”。新一轮AIGC内容生成机制实际是“学习在先作品中不同文字之间排列组合的概率，或是对作品思想层面风格、模式等的学习再生成”。因此，AIGC输出的内容基本不涉及完整作品（甚至作品片段）的复制利用，相较“谷歌图书馆”而言，“侵权传播”概率更低、“转换使用”程度更高。[6]

目前，美国行政和司法侧尚未对模型训练阶段的版权利用行为，能否适用“四要素标准”给予倾向性意见。但值得注意的是，同样采纳合理使用“四要素分析法”的以色列，已经表示机器学习可以获得版权法的责任豁免。在2023年1月，以色列司法部发布专门意见，支持将版权作品用于机器学习。以色列《版权法》第19节关于合理使用的规定，是以《美国版权法》第107条为蓝本，这一定程度说明“四要素分析法”的制度框架可以囊括AI模型训练。但以色列司法部表示，相关责任豁免不适用于“完全以某个特定作者的作品进行机器训练”，因为这会产生明显的市场替代效应。同时，该意见指出责任豁免仅适用于模型训练阶段而不涵盖内容输出阶段，因为可能存在模型直接输出侵权内容的情形。

规则探讨：
大模型训练能否获得版权责任豁免

从各国版权立法实践来看，通过“权利限制与例外制度”给予生成式人工智能研发平台在模型训练阶段一定的责任豁免，是一种发展趋势。目前来看，我国现行法《著作权法》尚未能对模型训练阶段的版权利用问题加以有效涵摄，需要从“三步检验法”立法标准出发，思考创设新的版权责任豁免机制的正当性。

1.既有“合理使用制度”无法涵盖大模型训练

我国《著作权法》第二十四条规定了“合理使用”（对于作品的利用，可以不经版权人许可，不向其支付报酬）的具体情形，涉及AIGC模型训练的具体规则大致包括“个人使用”“适当引用”“学习研究使用”等。“个人使用”适用目的存在严格限制，而目前AIGC模型最终落脚于对不特定主体的商业性服务，难以与之契合；“适当引用”适用前提是“为介绍、评论说明某一作品”或“说明某一问题”，AIGC模型商业化应用上午现实显然难以归于此类；“科学研究”对作品的利用限定在“学校课堂教学或者科学研究”，同时还强调仅能“少量复制”，AIGC模型大量复制与利用作品的现状无法满足该项要求。

虽然2021年修订后的《著作权法》对于“合理使用”规定，增加了“一般要件”和“兜底条款”。但“兜底条款”是一个半开放的内容规定——“法律、行政法规规定的其他情形”，无法在司法实践中由法院结合“一般要件”，根据具体案情直接适用。因此，AIGC模型训练能否适用“合理使用”的豁免，仍有待后续《著作权法》《著作权实施条例》等相关立法的修订加以明确。

此外，我国《著作权法》对于“法定许可”的规定较为分散，总结起来主要包括“期刊转载”“文艺团体表演”“录音唱片制作录音制品”“广播电台和电视台使用他人已发表的作品制作广播和电视节目”四大类，和模型训练行为差异甚大，难以匹配适用。

2.“三步检验法”是判断版权责任豁免的关键

从制度目标来看，除保护版权人之外，版权法还需要服务于促进全社会文化知识的分享、内容传播技术的进步等更高层级的公共利益。所以《伯尔尼公约》、TRIPs协定以及《世界知识产权组织版权条约》均允许成员国对版权规定限制和例外，但都强调例外规定需要满足“只能在特殊情况下做出、与作品的正常利用不相冲突，没有不合理的损害版权人的利益”这三步检验标准。“三步检验法”也是各国设立版权限制与例外规则所应当遵循的立法标准。如若将AIGC模型训练行为纳入我国版权法中“权利限制与例外”体系，也应符合这一要求。

在“三步检验法”中，第一步“只能在特殊情况下做出”仅是原则性规定，目的是防止对权利的限制过于泛化而损害版权人利益，核心的判定标准仍是对于第二步“与作品的正常利用不相冲突”和第三步“没有不合理的损害版权人的利益”的判断。一方面，这两步判断标准都具有高度抽象性，目前来看立法、司法和理论层面都未能达成统一共识；另一方面这两步判断标准实际也难以完全区分，实践中影响作品正常利用亦会导致版权人利益的损害，前者落脚于“行为判断”层面，后者聚焦于“结果判断”层面。

一般来看，“与作品的正常利用不相冲突”“没有不合理的侵害著作权人的合法权益”大致可以总结为三个标准。第一，特定的利用行为，是否落入版权人日常行权的范畴即“正常利用的情形”，也就是说版权人原本是否可以通过正常授权的方式规制这一行为并获得收益。第二，特定的利用行为，是否对作品的传播、利用市场产生了明显的替代效应。第三，特定的利用行为，对版权人市场利益的冲击和对社会公共利益的促进，二者间孰轻孰重的权衡问题。

3.“三步检验法”下如何看待大模型训练行为？

第一，授权自身作品进行模型训练是否是一种可以预见的版权人正常利用作品的情形？如果答案是肯定的，那么豁免未经授权的模型训练行为便有违“不与作品的正常使用冲突”的要求。虽然在实践层面，全球各地的版权人目前已经有向大模型平台主张付费利用的尝试，例如Reddit等内容平台相继宣布，将向Open Al、谷歌等大模型公司收取内容使用费。但前文已论述，从模型训练阶段的作品利用行为来看，除前期的“作品存储”行为暂且可以纳入“复制权”范畴外，更为核心的“作品处理”行为实际难很归入版权人法定权利范畴，“既无权利、何来授权”。由此来看，目前AIGC模型对于作品内容的训练在法律层面难谓是一种明确的作品“正常利用的情形”。

第二，未经授权的模型训练行为是否会对被训练作品的潜在市场产生替代效应？生成式人工智能顾名思义便是用来进行内容生成的，不管是“文生文”领域的ChatGPT亦或是“文生图”领域的Midjourney等，生成的内容大概率都会投入到内容利用和传播领域。但值得注意的是，由于生成式人工智能输出的内容基本不存在对被训练作品整体甚至说片段的复现，例如ChatGPT模式下更多是统计学概率下的“文字组合”“单字引用”。所以，在目前AIGC内容生成机制下，并不会对被训练作品产生明显的市场替代效应，只是会加剧相关内容市场的竞争环境。但有一种例外情形，如果是仅利用单一作家或画家的作品进行模型训练，则会存在正当性上的质疑。因为模型训练和使用者此时存在对特定版权人作品市场进行侵权替代的故意可能。[7]

第三，未经授权的模型作品训练行为对被训练作品市场冲击和对公共利益促进的平衡？本质上，这是一种价值考量和利益平衡的过程，很难做出精确的判断。AIGC发展方兴未艾，其对于整个人类社会的影响具有无限可能，有人称赞其诞生价值不亚于个人电脑与互联网，还有人甚至将其等同于一场新的“工业革命”。虽然模型训练对于在先版权人正常行权与既有市场的现实影响仍有待评估，但对于被训练内容授权付费的过度强调，无疑会对人工智能行业的技术进步和产业发展带来极大的阻碍影响。2023年2月20日，韩国经济部长会议发布了《新增长4.0推进计划》，在第三部分“关键举措”和第四部分“未来规划”，两次指出需要“为促进ChatGPT等人工智能服务创新的发展，推动版权法的修订，允许在数据分析中使用版权作品，以发展超大规模的人工智能”。

路径展望：
思考大模型时代新的“合理使用”机制

目前来看，对于AIGC模型训练采用“法定许可模式”，现实中存在一系列难以克服的难题。鉴于AIGC模型训练行为本身的特殊性，更宜采取一种附限制条件的“合理使用”模式，在明确其适用商业目的的基础下，赋予版权人“享有以适当方式保留模型训练的权利”，从而实现更为逻辑周延和利益衡平的具体规则设计。如何构建AIGC时代的版权“合理使用”机制，需要思考以下几个问题关注。

关注一，思考责任豁免机制的应用范围。从实践出发，不宜将责任豁免的模型训练目的限缩于非商业领域。

关注二，思考责任豁免机制的适用前提。需要明确适用的前提是“赋予版权人享有以适当方式保留模型训练的权利”。

关注三，思考责任豁免机制的核心条件。一方面，应当注意AIGC模型训练豁免的作品利用行为需要囊括“复制”。另一方面，需要注意此种责任豁免，应当严格限制于模型训练之目的，不得从事版权人享有的现行法保护和规制的其他传播行为。

本文作者：朱开鑫腾讯研究院

注：本文内容仅代表作者个人研究观点，原文发表于《版权理论与实务》杂志2023年第8期

参考资料来源:

[1]深层思考，“学习训练行为”，作用的对象是在先作品中的“思想”而非版权保护的“表达”。在“思想表达二分法”规则之下，模型“学习训练行为”存在纳入版权权利框架的根本障碍
[2]参见朱开鑫、张艺群：《“你的AI侵犯了我的版权”：浅谈AIGC背后的版权保护问题》，腾讯研究院公号
[3]参见“知产北京”公众号，https://mp.weixin.qq.com/s/bsOtnaN4DTl_wSD1KxUm4g
[4]参见朱开鑫：《“AI孙燕姿”背后的版权迷宫》，腾讯研究院公众号 https://mp.weixin.qq.com/s/fDk_w-CqnTNsZYbgG9Q2yA
[5]参见：文化厅：著作権法の一部を改正する法律概要説明資料，网址：https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/pdf/r1406693_02.pdf
[6]参见司晓：《奇点来临：ChatGPT 时代的著作权法走向何处?——兼回应相关论点》，载《探索与争鸣》2023年第5期
[7]参见朱开鑫：《ChatGPT生成的内容，是否享有版权？》，腾讯研究院公众号https://mp.weixin.qq.com/s/3_IVPrfdrDqS8uZeC7YsuQ

问题提出： 大模型训练中的版权争议备受关注