|乘风破浪的马里奥!这个AI带你一口气通29关
本文插图
大数据文摘出品
作者:牛婉杨
马里奥的系列游戏自打诞生以来就风靡全球 , 同时也陪伴了无数人的童年 。
人工智能出现后 , 不少技术咖都开始尝试 , 能不能利用AI完成马里奥的一次通关梦?
比如 , 这里有一位马里奥游戏疯狂爱好者uvipen就在Github上贡献了两种不同的方法 , 都能让马里奥轻松游走在障碍之间!去年6月 , uvipen从2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中得到了启发 , 用异步优势Actor-Critic算法(A3C)让马里奥顺利通过了32关中的9关 。
显然 , 他对之前的方法不够满意 , 于是经过一年多的钻研 , 他带着新方法来了!这次 , 他用 OpenAI 公布的近端策略优化 (Proximal Policy Optimization , 简称PPO) 算法 , 成功助力马里奥通过32关中的29关 , 近乎通关!
效果大概是这样
本文插图
强迫症表示这也太舒适了吧 , 快来和文摘菌一起看看uvipen是如何做到的吧~
用PPO算法顺利通过29关!如果不行 , 那就换一个学习率
这个PPO是何来头?文摘菌也去了解了一下 。
PPO全称是近端策略优化 , 听这个名字你可能觉得陌生 , 但是在人工智能圈 , 这个算法可是早就用于各种游戏对抗中了 。
早在2017年 , OpenAI 2017年提出的用于训练OpenAI Five的算法就是PPO , 也正是在它的帮助下 , 人工智能OpenAI Five首次在电子竞技游戏 DOTA 2 国际邀请赛中打败世界冠军Dendi 。
本文插图
Dendi 在第一局比赛中以 2:0 告负 , 而第二局仅开始十分钟 Dendi 就选择了直接认输 。
由此看来 , PPO的强大之处可想而知 , 它不仅具备超强的性能 , 且实现和调优要简单得多 。 这也正是uvipen选择使用PPO训练马里奥通关策略的原因 。 接下来文摘菌就为你介绍一下PPO~
近端策略优化(PPO) , 是对策略梯度(Policy Graident)的一种改进算法 。 Policy Gradient是一种基于策略迭代的强化学习算法 , PPO的一个核心改进是将Policy Gradient中On-policy的训练过程转化为Off-policy , 即从在线学习转化为离线学习 。
举一个比较通俗的例子 , On-policy就好比你在下棋;而Off-policy就相当于你在看别人下棋 。
而这个从在线到离线的转化过程被称为Importance Sampling , 是一种数学手段 。
本文插图
https://openai.com/blog/openai-baselines-ppo/
uvipen把代码都放在了Github上 , 如果你也想成为马里奥的开挂式玩家 , 可以运行python train.py来训练你的模型 。 例如:python train.py --world 5 --stage 2 --lr 1e-4。
然后通过运行python test.py来测试训练后的模型 。 例如:python test.py --world 5 --stage 2 。
如果在训练过程中遇到问题 , 可以尝试换一个学习率 。 uvipen通常把学习率设为1e-3 , 1e-4或1e-5 , 但是也有一些比较难的关卡 , 比如第1-3关 , 就连uvipen都失败了70次 , 不过当他最后将学习率调整为7e-5后 , 终于过了这关~
本文插图
那既然一共完成了29关 , 剩下的3关分别是哪些呢?作者表示 , 只有4-4、7-4和8-4这三关没过去 , 因为这些关都比较难 , 要求按一定规律才能过去 , 玩家必须选择正确的道路前进 , 如果你选错了路就会陷入“死循环” , 从而无法过关 。
推荐阅读
- 苹果|不知道该不该换苹果iPhone12?看完这个你就有答案了!
- 耳机|另类游戏体验,戴上这个耳机,我就是户外最靓的仔
- 企业家|乘风破浪的企业家丨来听听企业家们述说直挂云帆战商海
- |从0到1快速入门Excel透视表,看这一篇就够了
- 行业互联网|乘风破浪的企业家丨来听听企业家们述说直挂云帆战商海
- 无人科技|华测导航:人工智能让无人驾驶乘风破浪
- 数码|对讲机打开没有声音,你可能忽略了这个原因
- 互联网|两所高校研究院拟落户!副中心这个国家级产业园最新进展来啦
- 5G手机,行业互联网|5G市场迎来大洗牌一刻,高通意外掉队,这个品牌却拔得头筹
- 京东|京东白条24期免息爆款家电大放送,让这个夏天给你惊喜