游戏葡萄|现在放那儿自己跑就行了,网易的黑科技:以前策划写三四周AI
摘要:有了这样的AI之后 , 《逆水寒》1V1的代练就找不到了 。
整理/安德鲁
“
强化学习不需要你去写规则 。 很多场景 , 以前可能策划需要写三四周的AI , 交给强化学习 , 策划不用管这个事情 , 让这个机器跑着就好了 。
”
强化学习不需要你去写规则 。 很多场景 , 以前可能策划需要写三四周的AI , 交给强化学习 , 策划不用管这个事情 , 让这个机器跑着就好了 。
前几天的北京国际游戏创新大会(BIGC)上 , 网易伏羲实验室的吕唐杰分享了他们对于应用强化学习的研究、理解和应用 。
他重点讲述了强化学习的应用意义 , 以及怎样与以往游戏中传统AI开发方式结合 , 形成1+1大于2的效果 。 他也谈到了强化学习在游戏中的一些落地方式 。 比如《逆水寒》中 , 更多样化的AI应用 , 就让玩家的PVP内容有了极其丰富的层次——“有了这样的AI之后 , 《逆水寒》1V1的代练就找不到了 。 ”
以下是葡萄君整理的演讲内容 。
大家下午好 , 我叫吕唐杰 , 我今天的题目是《应用强化学习来开发游戏AI》 。 我们从2017年年底开始做强化学习 , 到现在做了快三年的时间 , 这方面积累了一些经验 , 今天给大家分享一下工作的一些成果 。
文章图片
今天整个分享内容分成四个部分:
第一部分简单介绍一下强化学习和游戏AI , 强化学习刚才有几位老总都讲过了 , 我就不太细讲技术细节了 。
第二部分介绍一下我们自研的一套强化学习框架 , RLEase 。
【游戏葡萄|现在放那儿自己跑就行了,网易的黑科技:以前策划写三四周AI】第三部分是我们真正通过强化学习的落地效果 。
第四部分 , 强化学习多个场景下遇到了很多问题 , 我觉得还有很多需要解决的 。
一
第一部分 , 先介绍一下什么是强化学习以及游戏AI 。 强化学习跟深度学习、监督学习不太一样 , 强化学习更像是人类学习的过程 。 它的目标是最大化累计的reward , 我们感知到环境做一些行为 , 这个行为会让外部环境发生改变 , 外部环境对我们反馈 , 根据这个反馈我们学习这个行为到底好还是不好 , 这个目标是长期的目标 , 我可以承受一些短期的负惩罚 。
强化学习不是看短期目标 , 而是看非常长期的目标 , 只要奔着长期目标好的事情就会做 。 强化学习这几年有了巨大的发展 , 包括这一波人工智能的技术 , 我觉得其实也是由强化学习来推动这个潮流 。 最早从谷歌用AI来玩游戏 , 八十年代的游戏非常简单 。 相对于最有名的、做得最好的两个公司 , 一个是DeepMind , 一个是OpenAI 。 他们现在已经有新的OpenAI的应用 , 在《星际争霸2》游戏项目上做到了顶尖人类选手的水平 , 是以前我们做传统AI几乎无法想象的效果 。
强化学习这几年取得了非常大的进展 , 对于游戏开发者来说 , 强化学习到底怎么用?你肯定很懵 , 这个强化学习怎么用到我们实际游戏开发里面?
文章图片
游戏开发者更熟悉的AI技术 , 一个是有限状态机 , 一个是行为树 。 这两种技术都认为是一种规则技术 , 说白了就是人去写规则 , 你想要它什么样的行为 , 你就写出什么样的规则出来 。
状态机也好 , 或者行为树也好 , 只是做了AI开发范示 , 怎么在游戏里面把规则写得清楚 , 不出现太大的问题——你要写一个非常复杂的AI , 或者水平非常高的AI 。 为什么会有这个问题?因为人自己也想不清楚到底该去怎么打 , 这个场景太复杂了 。 如果想要变得那么强的话 , 一个是树变得非常巨大 , 二是可能树之间的规则写着写着就搞不太清楚了 , 很难把握这个点 。
推荐阅读
- 葡萄酒|世界上最值钱的昆虫排行,冬虫夏草只拍最后,最贵达八万九千美元
- 葡萄酒|月球版图公开,美日霸占资源最丰富的两极,中国的位置在哪里?
- 数码知事|现在疯狂降价,但依旧无人购买,最惨游戏手机
- 阿里巴巴|网上赚钱2020:现在(未来)快速赚钱的8种方法
- 怪客数码|现在来说说该机的优点和缺点!,一加8T真机体验三天以后
- 葡萄酒|7种极为罕见的动物, 有种在中国发现, 还有种价值高达160万
- 摩拜单车|那个曾经将摩拜单车卖给美团的创始人,套现27亿后,现在过得如何
- 数码忽悠哥|虽然拍照不强,但现在值得入手了,都说魅族17是小三星
- 安卓小王子|S21系列:可能还不如现在,泄露者称不用等待明年的三星Galaxy
- 张旭豪|2年了,那个把饿了么卖给马云,变现665亿的外卖小哥,现在如何?