近些年,随着服务型机器人和民用无人设备的快速发展,传统依靠人手工编程设计规则实现的基于规则判断的确定性的机器人操作和规划正面临着越来越大的挑战:随着任务的逐渐复杂化和场景的动态化,机器人所面对的操作环境和过程的复杂程度快速上升,使得规则难以设计;另一方面,用户对服务型机器人和无人设备的行为亲和性提出了更高的要求,机器人需要在与人合作过程中采取更适应人类习惯,更个性化的行为模式,即从人适应机器逐步向机器适配人发展,这就使机器人行为的可学习性与适应性变得格外重要 。
早先为赋予机器人执行任务的能力,在机械和自动化领域已有大量成熟的不基于学习的方法,其特点为使用了大量的预先设计的操作与决策规则 。代表性的如使用软件编程方式实现的序列操作逻辑、使用目标相关的引导函数直接完成对行为的逆运动学优化求解、使用轨迹跟随方式直接控制机器人执行给定轨迹和远程遥操作机器人行为等 。机器人实验室建设在目前主流的机器人任务环境中拥有广泛的应用,但仍有不足:在设计规则或任务优化函数时,需要对机器人的机械结构、性能有较清晰的建模;对环境的确定性有较为严格的假设要求,在遥操作中对操作者的操作水平、操作通信的实时性有较高的要求,这些要求随着机器人在道路、室内等非结构化环境中的逐步普及,变得越来越难以满足 。基于青少儿机器人学习方法依赖现存的方法发展而来,通过从数据中的学习完成对策略的调整,不断地降低机器人操作策略制定中人参与的部分;同时通过探索学习,自主实现对环境的建模,从而放松对环境和自身机械结构建模的依赖 。
文章插图
【解析服务型智能机器人的学习方法论】
不同于使用预先设计的规则实现操作任务,机器人技能学习强调在动态变化的环境中,在给定的任务下,利用大量数据或仿真提供的信息,动态交互地自主实现任务技能学习,并使用学习得到的策略在动态的环境中完成任务规划 。创未来机器人作为一种学习方法,数据的质量和形式极大地影响着学习效果的好坏 。对于离散时间(多步)决策序列,我们定义每一个决策时刻所依据的有限信息为,在此时刻执行的有限决策行为为,所构成的行为序列轨迹为 。学习的数据为由行为序列构成的集合,学习的对象是任意状态下的决策策略 。现有的两种常见的数据获取和策略优化方式为:
给出人工指定的函数来指导策略学习的强化学习类方法:使用建模在行为序列上的回报函数和建模序列行为的好坏,通过动态规划迭代求取最优策略 。机器人课程教案与儿童机器人编程此方法适用于序列中每一时刻的行为优劣都有清晰明确的定义的情形,即较高的回报函数和代表较好的执行效果 。此时我们可以通过大量的迭代探索,实现对回报函数的优化,同时得到大量较优的行为轨迹以进行策略的学习 。
此方法以最大化与专家示教策略的相似程度作为学习目标,适用于任务指标难以明确,回报函数难以设计的场合 。可以通过遥操作或专家在回路中的操作来获得 。得到专家示教序列后,可以通过不断地环境交互实现最大化重现专家状态,进而最大化重复专家的决策行为 。目前常见的使用回报函数定义最优策略并进行学习的方法为强化学习方法,强化学习方法通过定义一套值函数,并借助环境探索遍历迭代完成对值函数的采样与近似 。教学教具 机器人其中值函数的物理意义为在当前策略下,在状态或在状态而做出动作所得到的预期回报函数和,即代表了对当前策略在当前情形下的最优性的判断 。通过每次采用最大化回报函数的策略,或按照回报函数增长方向更新现有策略,即可学习得到更好的行为决策模型 。此类方法由于其目标为最优化回报函数期望和,因此效果好坏严格依赖回报函数本身的定义是否足够严谨,对较差轨迹的区分是否足够显著 。
目前常见的使用示教轨迹定义最优策略并进行学习的方法为模仿学习方法 。模仿学习方法通过定义一种建立在专家决策序列和当前策略产生的序列之间的相似性度量,或直接建立策略之间的相似性度量,并使之最大化(或最小化)来完成对专家示教中蕴含策略的学习 。机器人早教常见的模仿学习方法分为两大类,其一为直接通过在示教样本上的监督学习来学习专家策略,数学描述为在专家决策序列每一时刻的状态-决策对下,监督式的学习,从而使得在每个专家状态上,最大可能性的复现专家示教的决策行为 。
推荐阅读
- 深度解析Java静态代理与动态代理模式的实现
- AI人工智能学习流程
- 摩托罗拉|全球首发2亿像素!陈劲晒moto X30 Pro真机样张:解析力超强
- must+have done用法解析 done是什么意思
- 智能手机|飙到2亿像素了 手机上的高像素到底是怎么回事?
- 小米|米家智能空气炸锅4L发布:50+智能云食谱 首发仅299元
- 简单百搭帽子编织方法步骤解析 帽子织法
- 小米|透明窗口没了:小米推出米家智能空气炸锅 4L
- 人工智能 AI大数据可视化小神器Matplotlib
- 小米|米家智能小破壁料理机官宣:众筹299元 清洗难题破解了