数据|如何看待人工智能未来十年的发展?( 三 )


值得注意的是 , 原本独立发展的3个学派 , 正在开始以深度学习为主线的技术融合 , 比如在2013年 , 强化学习领域发明了DQN网络 , 其中采用了神经网络 , 开启了一个新的研究领域称作深度强化学习(Deep Reinforcement Learning) 。
那么 , 符号主义类算法是否也会和深度学习进行融合呢?一个热门候选是图网络(Graph Network)技术 , 这项技术正在与深度学习技术相融合 , 形成深度图网络研究领域 。 图网络的数据结构易于表达人类的先验知识 , 且是一种更加通用、推理能力更强(又称归纳偏置)的信息表达方法 , 这或许是可同时解决深度学习模型数据饥渴、推理能力不足以及输出结果可解释性不足的一把钥匙 。
(2)模型结构借鉴生物科学
深度学习模型的模型结构由前反馈和反向传播构成 , 与生物神经网络相比 , 模型的结构过于简单 。 深度学习模型结构是否可以从生物科学、生物神经科学的进步和发现中吸取灵感 , 从而发现更加优秀的模型是一个值得关注的领域 。 另一个方面 , 如何给深度学习模型加入不确定性的参数建模 , 使其更好的处理随机不确定性 , 也是一个可能产生突破的领域 。
(3)数据生成
AI模型训练依赖数据 , 这一点目前来看不是问题 , 但是AI模型训练依赖人工标注数据 , 是一个头痛的问题 。 利用算法有效解决或者大幅降低模型训练对于人工标注数据的依赖 , 是一个热点研究领域 。 实际上 , 在人工智能技术发展过程中一直若隐若现的美国国防部高级研究计划局(DARPA) , 已经将此领域定为其AI3.0发展计划目标之一 , 可见其重要程度 。
(4)模型自评估
现有的AI算法 , 无论是机器学习算法 , 还是深度学习算法 , 其研发模式本质上是通过训练闭环(closed loop)、推理开环(open loop)的方式进行的 。 是否可以通过设计模型自评估 , 在推理环节将开环系统进化成闭环系统也是一个值得研究的领域 。 在通信领域 , 控制领域等其他行业领域的大量算法实践表明 , 采用闭环算法的系统在性能和输出可预测性上 , 通常均比开环系统优秀 , 且闭环系统可大幅降低性能断崖式衰减的可能性 。 闭环系统的这些特性 , 提供了对AI系统提高鲁棒性和可对抗性的一种思路和方法 。

工程化
上文已经对人工智能数据、算力、算法层面进行了梳理和分析 , 最后我们看看工程化 。 工程化对于人工智能 , 如同厨具对于美味佳肴一样 , 是将数据、算力、算法结合到一起的媒介 。
工程化的本质作用是提升效率 , 即最大化利用资源 , 最小化减少信息之间的转换损失 。 打一个简单的比喻 , 要做出美味佳肴 , 食材、厨房灶台、厨师都有 , 但是唯独没有合适的厨具 , 那么厨师既无法发挥厨艺(算法) , 又无法处理食材(数据) , 也无法使用厨房灶台的水电气(算力) 。 因此 , 可以预见 , 工程化未来的发展 , 是将上文提到的算力与算法性能关系 , 从现在的9次方 , 逼近到理论上限4次方的重要手段之一 。
过去10年 , AI工程化发展 , 已形成一个明晰的工具链体系 , 近期也伴随着一些值得关注的变化 , 笔者将一些较为明显的趋势 , 汇总如下:
数据|如何看待人工智能未来十年的发展?
图片

总结来说 , AI工程化正在形成从用户端到云端的 , 以Python为编程语言的一整套工具链 , 其3个重要的特点为:远程编程与调试 , 深度学习与机器学习的GPU加速支持 , 以及模型训练与推理工具链的解耦 。 与此同时 , 产业链上游厂商对开源社区的大量投入 , 将为中下游企业和个人带来工具链的技术红利 , 降低其研发门槛和成本 , 笔者认为微软、脸书、英伟达3家上游厂商主推的开源工具链尤其值得关注 。

结语
对于人工智能技术过去10年发展取得的成就 , 有人归因于数据 , 也有人归因于算力 。 未来人工智能技术发展 , 笔者大胆预测 , 算法将是核心驱动力 。 同时 , 算法研发的实际效率 , 除了算法结构本身 , 还取决于设计者对先进工具链的掌握程度 。


推荐阅读