「脑极体」你还敢信任强化学习吗?,当AI开始“踢脏球”
足球机器人排成一排向球门发起射击 , 但守门员却并没有准备防守 , 而是一屁股倒在地上开始胡乱摆动起了双腿 。 然后 , 前锋跳了一段十分令人困惑的舞蹈 , 跺跺脚 , 挥挥手 , 啪叽一下摔倒在地上 。 然后比分守门员1-0 。
这场景像不像比国足对战梵蒂冈(并没有) , 一切都是那么迷幻且不真实 。 如果说它是阿尔法狗和OpenAIFive等的“同门师兄弟” , 都是用强化学习训练出来的 , 大家想不想开除它的“AI籍”?
显然 , 虽然曾经大败柯洁李世石 , 团灭Dota2国家队 , 并被视作AGI(通用人工智能)必由之路 , 但强化学习算法 , 头顶上始终有着一口摘不掉的“安全性”大黑锅 。
而这也是阻止它真正落地应用的根本原因 。 毕竟没有人希望自动驾驶汽车开着开着就把乘客带到沟里去 , 或者是机器人端一杯开水直接浇到主人头上 。
到底为什么 , 强化学习总会犯一些匪夷所思的错误 , 有研究人员认为 , 这是因为系统中的智能体可能会被一些怪异的行为所欺骗 。
具体是怎么回事呢?研究原本打算今年4月在埃塞俄比亚举行的学习代表国际会议上发表 , 目前看来能顺利召开的概率几乎不存在 , 所以我们就提前云解读 , 来聊聊看似稳健的强化学习策略背后 , 究竟掩盖着哪些严重的缺陷 。
不省心的AI:告别脏数据 , 但学会了脏行为
强化学习取代监督学习 , 成为深度学习领域的“未来之星” , 不是没有原因的 。
因为监督学习是通过标记好的数据集来进行训练的 , 这意味着 , 如果对输入的数据进行一些微小的调整 , 比如改变图像的像素或是更换语音包的内容 , 都可能让AI陷入混乱 , 有可能将虫子识别为赛车 , 让绅士学会脏话……
与之相比 , 强化学习就智能多了 。 因为它是模仿人类的学习模式 , 能体(Agent)以“试错”的方式进行学习 , 通过与环境进行交互 , 以获得最大的奖赏为追求来做出行为反应 。
就像不断告诉小孩子好好写作业就有好吃的食物奖励 , 不好好写就关小黑屋 , 久而久之为了“利益最大化” , 自然就会将写作业与好吃的联系起来 , 去产生正确的动作 。
通过这种“行动-评价”机制来获得知识 , 改进行动以适应环境 , 是不是聪明了许多 。 这也是为什么 , 人类开始让强化学习玩游戏、开汽车、搞药物实验……
文章图片
但研究证明 , 强化学习的效果并没有预期的那么稳定 , 很容易受到篡改输入的影响 。
加州大学伯克利分校的亚当·格里夫(AdamGleave)发现 , 强化学习不会因为添加少量噪音(不适当的输入)而被破坏 , 因为智能体(agent)可能根本看不到那些东西 , 而如果改变它周围事物的行为方式 , 智能体却会被那些奇奇怪怪的行为所欺骗 , 进而产生一些奇怪的“对抗”策略 。
比如开篇提到的足球比赛 , 当“守门员”开始不按规矩出牌 , “前锋”也就跟着瞎舞动起来了 。 这种错误的“对抗性策略” , 导致的安全威胁可能会更大 。
首先 , 比起投喂给监督学习“脏数据” , 强化学习“被误导” , 受影响的将是AI系统的整体行为 。 如果说数据集被污染会让AI准确率下降 , 那么强化学习错误训练出的AI有可能将摄像头输入的信息错误分类 , 然后指导传感器做出预期之外的反应 。 比如行人突然挥舞手臂 , 无人驾驶汽车就失控了……这 , 听起来还是挺“灾难片”的 。
文章图片
其次 , 超强的学习能力也会导致研究人员根本来不及发现和纠正AI的错误行为 。
研究小组利用强化学习训练棒形机器人玩两人游戏 , 包括踢一个球进一个球 , 横越一条线 , 和相扑等等 。 然后 , 又训练了第二组机器人来寻找打败第一组机器人的方法 。 结果发现 , 第二组机器人很快发现了对抗策略 , 并用不到3%的训练时间后就学会了可靠地击败受害者 , 要知道受害者可是在第一时间就学会了玩游戏啊 。 这就像新来的高智商版的胖虎同学 , 拼命欺负大雄 , 老师还没办法及时发现 , 妥妥的校园霸凌啊!
推荐阅读
- 「脑极体」究竟在造什么车?,闭门造车的苹果
- 『三言财经』罗永浩谈超三成消费者直播购物遇到问题:不能因粉丝信任就胡来
- 「AI科技评论aitechtalk」直播丨华为诺亚方舟ICLR满分论文:基于强化学习的因果发现
- ITBear科技:Mark的评分值得信任吗?,手机相机中的风云榜,DXO