生成式AI时代的著作权之困

陈永伟/文
3月22日,美国《华尔街日报》刊发了一则新闻:拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等媒体的美国新闻集团正准备通过法律程序向Ope-nAI、微软,以及谷歌等应用内容训练AI的技术制造商寻求赔偿 。这一则新闻又一次将生成式AI所引发的著作权难题摆到了人们的面前 。
从去年下半年开始,包括ChatG-PT、Dall-E2、Midjourney在内的大型生成式AI模型如雨后春笋一样出现 。利用这类AI,人们可以非常容易地通过简单的提示语(prompt)来生成各种文本、图片、音频、视频,甚至元宇宙中的各种三维模型 。
生成式AI的崛起一方面极大地释放了人们的创造能力,让人们生产内容的成本大幅度降低了,但另一方面也引发了一系列的问题 。在这些问题中,知识产权,尤其是著作权问题就是最为棘手的之一 。
从总体上看,生成式AI涉及的著作权问题体现在两个方面:一个方面是,在训练的过程中,AI模型需要用到大量的数据,在此过程中就可能造成对一些著作权所有人权利的侵犯;另一个方面则是作为非人主体,AI是否可以享受传统上只有作为人才能享有的著作权 。随着生成式AI的迅速发展和普及,这两个问题都已经不再是理论上的难题,而是紧迫需要解决的现实问题了 。
AI学习过程中的著作权问题
虽然生成式AI的运作十分复杂,但从根本上看,它就是一个对于概率分布的再抽样问题:AI会首先通过对样本数据(数据可以是文本、图片、视频等多种类型)进行学习,然后得到一个概率分布 。在得到了这个概率分布后,AI就可以基于这个分布进行再抽样,从而就可以得到不同于样本数据的新数据 。根据训练算法的不同,这个得到的分布可能是和样本数据一致的,也可能是和样本数据不同的(举例来说,用 “生成式对抗网络”GenerativeAdversaria.NETs,得到的分布就可能和原分布不同 。这也是为什么有的时候要求基于GAN的AI模型来画人,结果却会生成一个怪物形象的原因) 。但无论是哪种方式,训练过程中的数据投入都是不可避免的 。在这个过程中,就可能对著作权产生侵犯 。
具体来说,这个侵犯会发生在数据获取和数据生成两个环节:
在对AI模型进行训练之前,首先需要从数据源获取数据,然后对数据进行一定的整理和标注 。而在抓取或下载数据的过程中,可能并未得到著作权所有人的授权,这种行为就可能会涉及对著作权中“复制权”的侵犯 。
在搜集到了数据之后,AI会对数据进行学习,从中提取关键信息,然后根据这些特征来生成新的数据 。由于新生成的数据是根据训练数据中提取的某些参数得到的,所以它就必然和训练数据这个整体在某种程度上具有相似性 。这在大多数时候并不会有问题,但在某些生成算法下,AI生成的数据可能会十分类似于某一个具体样本点 。
例如,包括StableDiffusion、Mid-journey在内的很多图片生成模型都采用了扩散模型作为生成算法 。这种生成模型会通过先对图片加入噪音,然后再用算法去除噪声(可以将这一过程直观地理解为在一个清晰的画面上逐步加入马赛克,然后再逐步去除马赛克)的方式来生成图片 。因此在一些时候,生成的图片就可能和原图片具有很高的相似性 。不久前,马里兰大学和纽约大学的研究团队进行了一项研究,对DALL-E2、StableDiffusion等模型生成的图片与训练数据中的图片进行了对比 。结果发现,在生成图片中,有约1.88%的图片和训练集中的某个图片相似度超过了50% 。显然,如果出现了这种情况,那么就会涉及对原图片著作权中“改编权”的侵犯 。此外,如果将这些生成的图片在网上进行传播,还可能还会涉及侵犯著作权中“传播权”等的问题 。
综合以上分析,我们可以看到,抓取网上的数据来训练AI确实存在着很多的潜在风险 。尤其是批量抓取类似《纽约邮报》、《巴伦周刊》、《华尔街日报》等媒体的数据库使用,其构成著作权侵权的风险就非常大 。
当然,尽管相关的风险非常大,但抓取数据训练AI是否构成了对著作权的侵犯还需要看这种行为究竟是不是对著作权的合理使用 。在各国的法律中,都规定了人们在某些特定的情况下可以在没有征得权利人许可的情况下自由使用著作权,并且不用对其支付报酬 。比如,出于个人的学习、研究、欣赏等需要,对他人已经发表的作品进行使用,一般会被视为合理使用;为了教学研究等目的,少量复制他人的著作,通常也不会被认为是著作权侵权行为 。


推荐阅读