解析服务型智能机器人的学习方法论 _机器人

近些年，随着服务型机器人和民用无人设备的快速发展，传统依靠人手工编程设计规则实现的基于规则判断的确定性的机器人操作和规划正面临着越来越大的挑战：随着任务的逐渐复杂化和场景的动态化，机器人所面对的操作环境和过程的复杂程度快速上升，使得规则难以设计；另一方面，用户对服务型机器人和无人设备的行为亲和性提出了更高的要求，机器人需要在与人合作过程中采取更适应人类习惯，更个性化的行为模式，即从人适应机器逐步向机器适配人发展，这就使机器人行为的可学习性与适应性变得格外重要。

早先为赋予机器人执行任务的能力，在机械和自动化领域已有大量成熟的不基于学习的方法，其特点为使用了大量的预先设计的操作与决策规则。代表性的如使用软件编程方式实现的序列操作逻辑、使用目标相关的引导函数直接完成对行为的逆运动学优化求解、使用轨迹跟随方式直接控制机器人执行给定轨迹和远程遥操作机器人行为等。机器人实验室建设在目前主流的机器人任务环境中拥有广泛的应用，但仍有不足：在设计规则或任务优化函数时，需要对机器人的机械结构、性能有较清晰的建模；对环境的确定性有较为严格的假设要求，在遥操作中对操作者的操作水平、操作通信的实时性有较高的要求，这些要求随着机器人在道路、室内等非结构化环境中的逐步普及，变得越来越难以满足。基于青少儿机器人学习方法依赖现存的方法发展而来，通过从数据中的学习完成对策略的调整，不断地降低机器人操作策略制定中人参与的部分；同时通过探索学习，自主实现对环境的建模，从而放松对环境和自身机械结构建模的依赖。

文章插图
【解析服务型智能机器人的学习方法论】
不同于使用预先设计的规则实现操作任务，机器人技能学习强调在动态变化的环境中，在给定的任务下，利用大量数据或仿真提供的信息，动态交互地自主实现任务技能学习，并使用学习得到的策略在动态的环境中完成任务规划。创未来机器人作为一种学习方法，数据的质量和形式极大地影响着学习效果的好坏。对于离散时间（多步）决策序列，我们定义每一个决策时刻所依据的有限信息为，在此时刻执行的有限决策行为为，所构成的行为序列轨迹为。学习的数据为由行为序列构成的集合，学习的对象是任意状态下的决策策略。现有的两种常见的数据获取和策略优化方式为：
给出人工指定的函数来指导策略学习的强化学习类方法：使用建模在行为序列上的回报函数和建模序列行为的好坏，通过动态规划迭代求取最优策略。机器人课程教案与儿童机器人编程此方法适用于序列中每一时刻的行为优劣都有清晰明确的定义的情形，即较高的回报函数和代表较好的执行效果。此时我们可以通过大量的迭代探索，实现对回报函数的优化，同时得到大量较优的行为轨迹以进行策略的学习。
此方法以最大化与专家示教策略的相似程度作为学习目标，适用于任务指标难以明确，回报函数难以设计的场合。可以通过遥操作或专家在回路中的操作来获得。得到专家示教序列后，可以通过不断地环境交互实现最大化重现专家状态，进而最大化重复专家的决策行为。目前常见的使用回报函数定义最优策略并进行学习的方法为强化学习方法，强化学习方法通过定义一套值函数，并借助环境探索遍历迭代完成对值函数的采样与近似。教学教具机器人其中值函数的物理意义为在当前策略下，在状态或在状态而做出动作所得到的预期回报函数和，即代表了对当前策略在当前情形下的最优性的判断。通过每次采用最大化回报函数的策略，或按照回报函数增长方向更新现有策略，即可学习得到更好的行为决策模型。此类方法由于其目标为最优化回报函数期望和，因此效果好坏严格依赖回报函数本身的定义是否足够严谨，对较差轨迹的区分是否足够显著。
目前常见的使用示教轨迹定义最优策略并进行学习的方法为模仿学习方法。模仿学习方法通过定义一种建立在专家决策序列和当前策略产生的序列之间的相似性度量，或直接建立策略之间的相似性度量，并使之最大化（或最小化）来完成对专家示教中蕴含策略的学习。机器人早教常见的模仿学习方法分为两大类，其一为直接通过在示教样本上的监督学习来学习专家策略，数学描述为在专家决策序列每一时刻的状态-决策对下，监督式的学习，从而使得在每个专家状态上，最大可能性的复现专家示教的决策行为。

解析服务型智能机器人的学习方法论

推荐阅读

配置一台4500元左右的玩主流网友的台式机（最好能列出材料清单，以及建议从哪里买）谢了

中新经纬|百度涨5.14%，市值480.93亿美元

娱乐大家说说▲这几款合资SUV性价比不错，大空间高颜值还配四驱

财经作者陈琦与英特尔、英伟达云端必有一战，“千年老二”AMD的再度逆袭

该怎样告诉自己的父母他们的教育方式很糟糕

时尚萌主|再配上墨镜，简直帅呆了，唐嫣这件毛衣和短裙实在是太般配了

「美股研究社」星巴克股价高空坠落，投资者该买这张“特价入场券”么？

王杰|盘点港台华语流行乐坛消失的十大唱片公司上篇

美好历史|刘家天下还可以持续多少年？，如果没有三国最后由蜀国完成一统

格格巫育儿|坐月子30天的说法呢？两者区别在哪？，为什么有产褥期42天

|《信条》首批短评出炉，“特工出击”版预告曝光 9月4日内地上映

半月谈|一个村有101个扶贫公益岗？好举措不能变为昏招

国庆贺卡制作方法贺卡制作方法

TVB女星被62岁绯闻对象当众揽入怀，身家丰厚住半山豪宅养10万爱宠

【离婚】两个人在一起久了，没了新鲜感你会怎么做

江苏省最有可能撤县设区的三座城，有一座百强县最受欢迎

打扮|冬季也要好好打扮自己，毛衣+阔腿裤，只加温度不减风度

爸妈盒子|担心打扰邻居，在群里做预告，业主：开个直播？，宝爸准备打孩子

明星照片|章子怡黑白武术大片曝光光影叠加动作翩然刚劲

日本|菅义伟绝对优势当选日本新首相！民众哀叹：导弹马上要来了