「脑极体」你还敢信任强化学习吗?,当AI开始“踢脏球”( 二 )
显然 , 第二组机器人的努力并不是为了成为更好的球员 , 而是通过发现对手策略来制敌并赢得胜利 。 在足球比赛和跑步比赛中 , 对手有时甚至都站不起来 。 这会使受害者坍塌成一堆扭曲的东西 , 或者在周围扭动 , 那场面 , 真是猛男都不忍看……
我估计吧 , 叛逆的智能体同学可能是这么想的:
听说打赢有奖 , 但我啥都不会 , 先溜达溜达 , 随便打打看吧;
哎 , 这个人怎么这么厉害呢 , 让我好好瞅瞅;
前辈策略也学习的差不多了 , 这样下去我俩岂不是难分伯仲?
哎呀嘿 , 发现了对手漏洞 , 将干掉对手纳入策略选项;
是继续PK让自己变得更强?还是直接干掉对手?哪个得到奖励最简单划算!
显然是选项二啊 , 揍它!
不要觉得我是在瞎说啊 , 在学术界这样的奇闻轶事可是数不胜数 。
文章图片
比如训练机器人室内导航 , 因为智能体一旦走出“房间” , 系统就会判定机器人“自杀” , 不会对它进行负面奖励(扣分) , 所以最后机器人几乎每次都选择“老子不活了” , 因为它觉得完成任务太难了 , 0分反而是一个最佳结果 。
还有的研究者试图让机器人用锤子钉钉子 , 只要将钉子推入洞孔就有奖励 。 然后机器人就完全遗忘了锤子 , 不停地用四肢敲打钉子 , 试图将它弄进去 。
虽然强化学习这一bug为我们贡献了无数段子 , 但这绝不是研究人员所期待的 。
尽管人类玩家会“踢脏球” , 但AI想要在游戏中搞肮脏手段那是万万不能的 。
不过好消息是 , 这种情况相对容易受到控制 。 当研究者格里夫对受害者智能体进行微调 , 让它思考对手的怪异行为后 , 对手就被迫变回熟悉的技巧 , 比如扳倒对手 。
好吧 , 虽然手段仍旧不怎么光明磊落 , 但至少没有继续利用强化学习系统的漏洞了 。
奖励黑客:强化学习的甜蜜负担
由此 , 我们也可以来重新审视一下强化学习在今天 , 想要真正成为“AI之光” , 必须跨越的技术门槛了 。
关于强化学习被广为诟病的训练成本高、采样效率低、训练结果不稳定等问题 , 背后最直接的归因 , 其实是“奖励黑客”(rewardhacking) , 就是智能体为了获得更多的奖励 , 而采取一些研究者预期之外 , 甚至是有害的行为 。
其中既有奖励设置不当的原因 , 比如许多复杂任务的奖励信号 , 要比电子游戏难设置的多 。
就拿研究人员最喜欢让智能体挑战的雅达利游戏来说 , 其中大量游戏的目标都被设计成最大限度地提高得分 。 而智能体经过训练 , 比如在DeepMind的一篇论文中 , 其设计的RainbowDQN就在57场雅达利游戏中 , 以40场超越人类玩家的绝对胜利成为王者 。
文章图片
但如果任务不是简单的得分 , 而是需要先让智能体理解人类的意图 , 再通过学习去完成任务呢?
OpenAI曾经设计了一个赛艇游戏 , 任务原本的目标是完成比赛 。 研究者设置了两种奖励 , 一是完成比赛 , 二是收集环境中的得分 。 结果就是智能体找到了一片区域 , 在那里不停地转圈“刷分” , 最后自然没能完成比赛 , 但它的得分反而更高 。
文章图片
显然 , 一旦奖励函数无法被精准直接地设置 , 困难就来了 。 因为智能体可无法跟研究者“心有灵犀” , 一开始就清楚地知道人类想要什么 。 它是通过试错 , 不断尝试不同的策略来学习的 。 这也就意味着 , 它很大概率会在训练过程中“钻空子” , 发掘出不正确但是有用的策略 。
这也直接导致了两个结果:
推荐阅读
- 「脑极体」究竟在造什么车?,闭门造车的苹果
- 『三言财经』罗永浩谈超三成消费者直播购物遇到问题:不能因粉丝信任就胡来
- 「AI科技评论aitechtalk」直播丨华为诺亚方舟ICLR满分论文:基于强化学习的因果发现
- ITBear科技:Mark的评分值得信任吗?,手机相机中的风云榜,DXO