AI生成内容归谁?百度、讯飞、商汤协议“打架”,专家称AI时代版权是技术问题


AI生成内容归谁?百度、讯飞、商汤协议“打架”,专家称AI时代版权是技术问题

文章插图
出品 | 搜狐科技
作者 | 梁昌均
随着越来越多的AI大模型产品陆续向公众开放,全民进入AI新时代 。
目前,已有百度文心一言、字节云雀、百川大模型、智谱清言、商汤商量、讯飞星火、360智脑等十多款大模型产品获批通过,并开放服务;其中文心一言、讯飞星火等在开放不到24小时就突破百万用户 。
这势必也会将带来更大范围内的信息收集、使用等数据流动,甚至不排除更大规模的侵权情况 。早前火爆的妙鸭相机就因“霸王条款”,被外界质疑涉嫌侵害用户个人信息 。
然而,不少用户出于对大模型产品的尝鲜或好奇心理,在注册使用前并不会特别仔细去阅读用户协议或隐私政策等相关规定,往往都是直接点击同意 。这意味着,如果发生侵权事件,用户很可能就会处于不利局面 。
中国科学院院士何积丰近日在外滩大会上就提到,大模型的安全问题主要是在未经同意的情况下,收集、使用和泄露个人信息 。“这既可能发生在训练过程中,也可能发生在使用过程中,而大模型的生成能力则让隐私泄露的方式变得多样化 。”
搜狐科技就此查看了多款开放大模型产品的用户协议、个人信息或隐私政策,并采访了法律专家,对平台关于用户信息收集、使用等,以及知识产权等问题进行了解读 。
用户信息会被用来训练模型,部分仍存“霸王条款”
在互联网世界,为了便利,交出数据、换取服务成为很多时候的常态 。如今当使用这些开放的AI大模型应用时,用户依然被要求交出数据使用权 。
目前这些大模型产品的用户协议中全都提到,会利用用户输入或输出内容、互动反馈信息等去训练优化模型,提高产品的内容质量、响应速度等 。
AI生成内容归谁?百度、讯飞、商汤协议“打架”,专家称AI时代版权是技术问题

文章插图
由于用户输入或输出内容往往会涉及到多个层面,除一般信息,还会有个人信息甚至是敏感信息 。但不少规定都把信息保护问题甩给了用户,比如百川智能、智谱清言、讯飞星火均提到,建议用户不要或谨慎输入个人信息,因此可能会影响正常使用部分或全部功能 。
上海大邦律师事务所高级合伙人、知识产权律师游云庭对搜狐科技表示,平台在用户上传信息阶段应当设计自动的过滤机制,过滤掉个人信息 。“现在很多规定是让用户尽量不去上传个人信息,但平台应该有责任和法定义务去过滤,从而真正地保护好用户个人信息 。”
目前,提出过滤机制的企业并不多 。MiniMax在隐私政策中称,会提升服务的过滤机制,对可能是用户的个人信息,尤其是个人敏感信息的对话内容进行过滤、删除并不予保存 。
AI生成内容归谁?百度、讯飞、商汤协议“打架”,专家称AI时代版权是技术问题

文章插图
MiniMax隐私政策
其它平台对个人信息的使用,则均提到会采取去标识化、匿名化等技术手段,处理后的信息无法识别到特定个人主体,不再属于个人信息范畴,对此类信息的使用无需另行征得用户的同意,包括用于模型优化、商业化分析等 。
AI生成内容归谁?百度、讯飞、商汤协议“打架”,专家称AI时代版权是技术问题

文章插图
中国政法大学传播法研究中心副主任朱巍强调称,个人信息绝对不是说不能用,而是企业要依法依规收集使用 。《个人信息保护法》规定,只要用户知情同意、允许授权,收集使用过程中不能有欺诈,符合合法性、正当性、必要性等原则,企业就可以用 。
同时,朱巍提到,《个人信息保护法》规定,个人信息不包括匿名化处理后的信息,企业使用脱敏后的个人信息可以不再征求用户同意 。“脱敏之后的信息属于大数据,但处理者在使用过程中也要符合《数据安全法》等法律规定 。”
但在实际情况中,用户很难确认企业是否合法合规地使用了自己的信息 。游云庭就提到,要训练AI大模型,需要大规模输入数据来训练,但现在它是个黑箱,用户可能不知道被侵权,就算知道也很难有办法去举证 。
他认为,要想确认企业是否侵害了用户个人信息,可能还是要靠法院或行政监管去推动企业更加透明,即AI技术提供方或运营方应当公示自己训练使用了哪些数据 。
目前,我国尚未对此作出具体规定 。欧盟在今年6月通过的《人工智能法案》要求,生成式人工智能需要披露训练模型时用了哪些有版权的数据 。
但这往往被视为企业的商业机密,在算法同质化情况下,训练数据很大程度上决定了模型的质量 。OpenAI此前发布GPT-4时便以竞争更为激烈为由,不再披露具体的训练数据 。


推荐阅读