人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史( 六 )


一般来说 , 强化学习智能体必须学会如何在没有老师的帮助下 , 与一个动态的、最初未知的、部分可观察的环境互动 , 从而使预期的累积奖励信号最大化 。在行动和可感知的结果之间可能存在任意的、先验的未知延迟 。
当环境有一个马尔可夫接口 , 使RL智能体的输入可以传达确定下一个最佳行动所需的所有信息时 , 基于动态规划(DP)/时序差分(TD)/蒙特卡洛树搜索(MC)的RL会非常成功 。
对于没有马尔可夫接口的更复杂的情况 , 智能体不仅要考虑现在的输入 , 还要考虑以前输入的历史 。对此 , 由RL算法和LSTM形成的组合已经成为了一种标准方案 , 特别是通过策略梯度训练的LSTM 。

人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
例如 , 在2018年 , 一个经过PG训练的LSTM是OpenAI著名的Dactyl的核心 , 它在没有老师的情况下学会了控制一只灵巧的机器人手 。
视频游戏也是如此 。
2019年 , DeepMind(由Schmidhuber实验室的一名学生共同创立)在《星际争霸》游戏中击败了职业选手 , 其中用到的Alphastar , 就是有一个由PG训练的深度LSTM核心 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
与此同时 , RL LSTM(占模型总参数数的84%)也是著名的OpenAI Five的核心 , 它在Dota 2中击败了专业的人类玩家 。
RL的未来将是用复杂输入流的紧凑时空抽象来学习/组合/规划 , 也就是关于常识推理和学习思考 。
Schmidhuber在1990-91年发表的论文中提出 , 自监督的神经历史压缩器 , 可以学习多层次的抽象和多时间尺度上的表征概念;而基于端到端的可区分NN的子目标生成器 , 则可以通过梯度下降学习分层的行动计划 。
在随后的1997年和2015-18年 , 更复杂的学习抽象思维的方法被发表 。
十七、是硬件问题 , 呆子!
在过去的一千年里 , 如果没有不断改进和加速升级的计算机硬件 , 深度学习算法不可能迎来重大突破 。
我们第一个已知的齿轮计算设备是2000多年前古希腊的安提基特拉机械(Antikythera mechanism) 。这是现今所知的最古老的复杂科学计算机 , 同时也是世界上第一台模拟计算机 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
安提基特拉机械
而世界上第一台实用的可编程机器 , 是古希腊机械学家海伦于公元1世纪发明的 。
17世纪的机器变得更为灵活 , 可以根据输入数据计算答案 。
第一台用于简单算术的机械计算器由威廉·契克卡德(Wilhelm Schickard)于1623年发明制造 。
1673年 , 莱布尼茨设计了第一台可以执行所有四种算术运算 , 并带有内存的机器 。他还描述了由穿孔卡控制的二进制计算机的原理并提出链式法则 , 构成了深度学习和现代人工智能的重要组成部分 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
莱布尼茨乘法器
1800年左右 , 约瑟夫·玛丽·雅卡尔 (Joseph Marie Jacquard) 等人在法国制造了第一台首台可设计织布机——雅卡尔织布机(Jacquard machine) 。该发明对将来发展出其他可编程机器(例如计算机)起了重要作用 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
雅卡尔织布机
他们启发了阿达·洛芙莱斯(Ada Lovelace)和她的导师查尔斯·巴贝奇(Charles Babbage)发明了一台现代电子计算机的前身:巴贝奇差分机 。
在随后的1843年 , 洛芙莱斯公布了世界上第一套计算机算法 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
巴贝奇差分机
1914年 , 西班牙人Leonardo Torres y Quevedo成为20世纪第一位人工智能先驱 , 他创造了第一个国际象棋终端机器玩家 。
1935年至1941年间 , 康拉德·楚泽(Konrad Zuse)发明了世界上第一台可运行的可编程通用计算机:Z3 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
康拉德·楚泽
与巴贝奇分析机不同 , 楚泽使用莱布尼茨的二进制计算原理 , 而不是传统的十进制计算 。这大大简化了硬件的负荷 。


推荐阅读