Data Poisoning 数据投毒 _数据投毒

文章插图
人工智能安全峰会
2023年11月07日首届人工智能安全峰会发布《布莱奇利宣言》
【Data Poisoning 数据投毒】首届人工智能安全峰会于日前在英国布莱奇利园举行，峰会发布《布莱奇利宣言》。为期两天的峰会，美国、英国、欧盟、中国、印度等多方代表就人工智能技术快速发展带来的风险与机遇展开了讨论。
人工智能安全吗？一直萦绕在公众的心头，最典型的《我，机器人》电影里的光头还历历在目。人工智能是否安全就看他的信息流是不是干净，指令信息，逻辑判断信息的正确性。
目前的人工智能设备或者装备没有达到这些光头的水平，触发的事件的影响度还没有那么大，但足以让相关机构损失巨大的金钱财产。曾几何时数据直接成了病毒，时代发展人工智能流行市面，是非曲直，人类思想道路更是需要严格把关，知识安全，数据安全，人工智能才能安全。人工智能的安全问题很多，今天我们专门聊聊，最基础的“数据投毒”！

数据投毒事件一：

2016年曾经发生过一起真实的数据投毒事件。当年微软发布了一款聊天机器人Tay ，原本是一项有趣的实验，旨在通过与网友对话学习人际交往技巧。然而，这个实验在不到24小时内转变为一场噩梦。Tay很快从一个友好、有趣的机器人变成了一个满嘴脏话、充满歧视和偏见的人工智能。原因是一些不良分子恶意滥用了这一机会，用不适当的言辞对Tay进行训练，导致对话数据集被污染。最终微软被迫紧急下线Tay，以制止它继续学习和传播不当内容。

数据投毒事件二：

文章插图
来源: 网络舆情分析师考培基地
2023年10月16日，有家长发现在科大讯飞的学习机中，一篇标题为《蔺相如》作文含有诋毁伟人、扭曲历史等违背主流价值观的内容。有自媒体称，这是一篇早在2015年就发布于互联网的文章，后由第三方引入“讯飞学习机”，但是科大讯飞未能发现并删除，直到事发前仍能在学习机文库中搜索到的上述问题作文。
10月24日下午，科大讯飞（002230.SZ）股价跳水跌停。截至收盘，报46.7元/股，成交额超53亿元，总市值蒸发约120亿元。
这是两个近期的数据投毒案例。还有“毒教材”事件也难逃同样的谋划操作，对人工智能的数据投毒，对人类思想的意识投毒，细思极恐，手法一致……
诚然，在数字化的世界里，数据被誉为“新的石油” ，其价值不言而喻。然而，随着机器学习模型的广泛应用，一种新型的攻击方式——数据投毒，正在悄然兴起。数据投毒，是指有意或恶意地向数据集中引入虚假、恶意或有害的数据，利用训练或者微调（fine-tuning）过程使得模型中毒，以操纵、损害或欺骗机器学习模型的性能和输出结果。
通过一个实际的例子来解释什么是数据投毒，假设我们有一个机器学习模型，这个模型的任务是区分照片中的猫和狗。我们用数千张标记有“猫”和“狗”的图片来训练这个模型。训练完成后，当我们输入一张新的图片时，模型可以告诉我们这张照片里是猫还是狗。
现在，假设一个攻击者想要破坏我们的模型。他开始增加一些标签不准确的图片到训练集中，例如，他增加了一些实际上是猫的图片，但是给它们标记为“狗” 。这就是数据投毒。
然后，当我们再次使用这个“被投毒”的数据集训练模型时，模型就会开始混淆，因为这些错误的标签会导致模型在真实场景中的表现下降。例如，当我们输入一张猫的照片时，模型可能会错误地识别为狗。这就是数据投毒的效果。
这种情况在实际的应用中可能会造成严重的问题。比如，在自动驾驶汽车的场景下，如果训练数据被投毒，导致模型无法正确区分行人和非行人，那么可能会造成严重的安全问题。或者在金融防欺诈系统中，如果模型被训练成将欺诈行为误判为正常行为，那么就会导致大量的经济损失。
因此，确保训练数据的质量和准确性，以及防止数据投毒攻击，对于任何使用机器学习的系统来说都是非常重要的。
数据投毒的根源可以追溯到人类对数据和机器学习模型的依赖。在许多领域，如医疗、金融和安全，机器学习模型被用来处理重要的任务，如疾病诊断、股票交易和威胁检测。然而，这些模型的设计和训练往往受到数据质量的影响。如果数据被污染，那么模型的结果就可能受到误导。