科学出版社|陆培丽: 从统计世界走向人工智能( 二 )


1956 年夏季 , 以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会 , 共同研究和探讨用机器模拟智能的一系列有关问题 , 并首次提出了“人工智能”这一术语 , 它标志着“人工智能”这门新兴学科的正式诞生 。
这次会议基本上是一次头脑风暴 , 而支撑这场讨论的基础是:假设我们可以精确地描述出学习和创造过程的每个方面 , 并可以对其进行数学模拟且该模拟数据能够被复制到机器里面 。
“想办法让机器使用语言 , 形成抽象的概念来解决目前只有人类可以解决的问题 , 并让机器具有自我改进的能力” 。 这是本次会议的宗旨 , 也是一个全新的开端 。
科学出版社|陆培丽: 从统计世界走向人工智能
本文插图
人工智能的解决方法 知识的获取和表示是机器智能的核心 , 机器学习是指通过对信息中模式的算法分析进而发现和改进知识的计算算法 。 机器学习的一个重要方面是机器在有(或没有) 人工辅助的情况下具有更新这种“智能”的能力 。 下图为人工智能解决方法示意图 , 具体解决方法介绍如下 。

科学出版社|陆培丽: 从统计世界走向人工智能
本文插图
▲ 人工智能解决方法示意图
人工智能的解决方法大致分为聚类、分类、提取和解释 。 其中 , 聚类、分类等在传统的统计科学里已经涉及 。
(1) 聚类和分类的主要区别在于:在分类中 , 我们提前了解了类别 , 而在聚类中 , 我们从数据中发现类别 。
(2) 提取是指从文档中提取特定数据 , 尤其会在非结构化或者半结构化的文档中用到 , 比如财务报表的附注 。
(3) 解释是指在各种文稿中 , 比如法律合同、研究报告中就特定目的来解释非结构化内容 。 例如 , 机器学习与自然语言文本就涉及了文本分类和文本解释的问题 。
科学出版社|陆培丽: 从统计世界走向人工智能
本文插图
从统计建模到人工智能 统计参数模型是机器学习最早和最简单的形式 , 用参数统计方法处理数据之间的关系相对来说简单 。 多变量分析最早起源于多元线性回归模型 , 逻辑回归建立在这个基础上 。 现在最常用的逻辑回归模型被广泛地应用在银行判别信用风险领域 。
虽然这些简单的方法在过去很长一段时间内也被应用在各个领域 , 但是对于真实世界的数据 , 尤其是非结构化数据 , 参数统计在流程领域建模中仍然受到限制 。 而深度学习的算法正好弥补了这一不足之处 。 深度学习架构的基础是假设观测数据是由不同因素在不同层次上的相互作用而产生的 。 人工智能平台的模块有多重分类 , 下图简单地介绍了模块的一种分类方式 。

科学出版社|陆培丽: 从统计世界走向人工智能
本文插图
▲ 人工智能平台的模块分类
科学出版社|陆培丽: 从统计世界走向人工智能
本文插图
在人工智能产业蒸蒸日上的发展之时 , 我收到了《从统计世界走向人工智能—— 实战案例与算法》的书稿 。 陆培丽是上海交通大学数学科学学院的优秀校友 , 曾经受邀在上海交通大学数学科学学院建院90 周年纪念大会上做主题演讲 。 她将自己在量化金融领域将近20 年的积累与理解 , 同人工智能的算法与应用相结合 , 汇聚成了本书的一个个生动的案例 , 助推了金融科技的发展 。 这些案例都是她和她的研究团队在商业领域的实战经历 , 是人工智能产业化、市场化、商业化的生动写照 。 该书从数学讲述到统计 , 再从统计到人工智能的发展 , 结合大量的实际的应用案例 , 其中包括能源价格预测、财务分析、生物科技案例、银行证券金融、医学等背景领域 , 介绍了诸多经典的机器学习算法如何解决这些领域的问题 , 从易到难 , 逐步深入 。


推荐阅读