生成式AI时代的著作权之困 _生成式AI

陈永伟/文
3月22日，美国《华尔街日报》刊发了一则新闻：拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等媒体的美国新闻集团正准备通过法律程序向Ope-nAI、微软，以及谷歌等应用内容训练AI的技术制造商寻求赔偿。这一则新闻又一次将生成式AI所引发的著作权难题摆到了人们的面前。
从去年下半年开始，包括ChatG-PT、Dall-E2、Midjourney在内的大型生成式AI模型如雨后春笋一样出现。利用这类AI，人们可以非常容易地通过简单的提示语（prompt）来生成各种文本、图片、音频、视频，甚至元宇宙中的各种三维模型。
生成式AI的崛起一方面极大地释放了人们的创造能力，让人们生产内容的成本大幅度降低了，但另一方面也引发了一系列的问题。在这些问题中，知识产权，尤其是著作权问题就是最为棘手的之一。
从总体上看，生成式AI涉及的著作权问题体现在两个方面：一个方面是，在训练的过程中，AI模型需要用到大量的数据，在此过程中就可能造成对一些著作权所有人权利的侵犯；另一个方面则是作为非人主体，AI是否可以享受传统上只有作为人才能享有的著作权。随着生成式AI的迅速发展和普及，这两个问题都已经不再是理论上的难题，而是紧迫需要解决的现实问题了。
AI学习过程中的著作权问题
虽然生成式AI的运作十分复杂，但从根本上看，它就是一个对于概率分布的再抽样问题：AI会首先通过对样本数据（数据可以是文本、图片、视频等多种类型）进行学习，然后得到一个概率分布。在得到了这个概率分布后，AI就可以基于这个分布进行再抽样，从而就可以得到不同于样本数据的新数据。根据训练算法的不同，这个得到的分布可能是和样本数据一致的，也可能是和样本数据不同的（举例来说，用 “生成式对抗网络”GenerativeAdversaria.NETs，得到的分布就可能和原分布不同。这也是为什么有的时候要求基于GAN的AI模型来画人，结果却会生成一个怪物形象的原因）。但无论是哪种方式，训练过程中的数据投入都是不可避免的。在这个过程中，就可能对著作权产生侵犯。
具体来说，这个侵犯会发生在数据获取和数据生成两个环节：
在对AI模型进行训练之前，首先需要从数据源获取数据，然后对数据进行一定的整理和标注。而在抓取或下载数据的过程中，可能并未得到著作权所有人的授权，这种行为就可能会涉及对著作权中“复制权”的侵犯。
在搜集到了数据之后，AI会对数据进行学习，从中提取关键信息，然后根据这些特征来生成新的数据。由于新生成的数据是根据训练数据中提取的某些参数得到的，所以它就必然和训练数据这个整体在某种程度上具有相似性。这在大多数时候并不会有问题，但在某些生成算法下，AI生成的数据可能会十分类似于某一个具体样本点。
例如，包括StableDiffusion、Mid-journey在内的很多图片生成模型都采用了扩散模型作为生成算法。这种生成模型会通过先对图片加入噪音，然后再用算法去除噪声（可以将这一过程直观地理解为在一个清晰的画面上逐步加入马赛克，然后再逐步去除马赛克）的方式来生成图片。因此在一些时候，生成的图片就可能和原图片具有很高的相似性。不久前，马里兰大学和纽约大学的研究团队进行了一项研究，对DALL-E2、StableDiffusion等模型生成的图片与训练数据中的图片进行了对比。结果发现，在生成图片中，有约1.88%的图片和训练集中的某个图片相似度超过了50% 。显然，如果出现了这种情况，那么就会涉及对原图片著作权中“改编权”的侵犯。此外，如果将这些生成的图片在网上进行传播，还可能还会涉及侵犯著作权中“传播权”等的问题。
综合以上分析，我们可以看到，抓取网上的数据来训练AI确实存在着很多的潜在风险。尤其是批量抓取类似《纽约邮报》、《巴伦周刊》、《华尔街日报》等媒体的数据库使用，其构成著作权侵权的风险就非常大。
当然，尽管相关的风险非常大，但抓取数据训练AI是否构成了对著作权的侵犯还需要看这种行为究竟是不是对著作权的合理使用。在各国的法律中，都规定了人们在某些特定的情况下可以在没有征得权利人许可的情况下自由使用著作权，并且不用对其支付报酬。比如，出于个人的学习、研究、欣赏等需要，对他人已经发表的作品进行使用，一般会被视为合理使用；为了教学研究等目的，少量复制他人的著作，通常也不会被认为是著作权侵权行为。

生成式AI时代的著作权之困

推荐阅读

『世界卫生组织』全球单日新增病例数首次超10万，世卫组织分析全球疫情数据为何猛增

为啥大多数旅店退房时间都在12点前，而超过18点退房便算一天房费

争议|鲁迅冰心骂她滥情，钱钟书骂她交际花，林徽因饱受争议却更惹人爱

蛹虫草|蛹虫草干制品标准

如何在一年内最大限度提高能申请到学校的排名?

译言|长发飘逸美人胚子无疑，当街吃高颜甜点太可爱，14岁苏瑞·克鲁斯独自外出

寇准|趣谈大宋名相寇准的多面人生：虽为一代名相，但是在生活上极度奢侈

味姨|又潮又百搭！，比摸猫还舒服的卫衣！遮肉显瘦还不粘毛

汪晋贤|锁定大连人首发新星遭弃用，贝大师不爱单欢欢，爱将名单再添一人

杭州日报|全城急寻!骑无牌车被拦下，女子丢下4岁女儿跑了！孩子爹妈你们在哪？

夏天早餐吃什么好，这些竟是最佳选择

卧室在想刷绿色墙面的前提下，有没有好的装修建议最好是森林风，比如借物小人阿莉埃蒂家的风格~

【】美国空军学院多名学员新冠检测阳性美军拒绝公开人数

国新客户端|国务院政策例行吹风会：党中央、国务院对金融控股公司的准入管理高度重视

「每日财报」华发股份靠什么迈入“千亿”门槛，净负债率233%

怎样去国家体育总局的健身气功管理中心请教气功

新防务观察|印军苏30落荒而逃，飞行员：这仗根本没法打，歼16利用高海拔优势

|为什么很多身价千万的老板还会选择租共享办公室，是因为没钱么？还是为了省事呢？

建设银行江苏省分行|10元看大片、6折停车、女性专属卡……金秋九月，超多福利遇“建”你

『白酒』十几块的白酒和几百块的白酒，到底有什么区别？