AI能为科学研究做什么( 三 )


除此之外,AI现在还有一个非常重要的作用,即生成数据 。这一点,在AI研究领域表现得最为显著 。近十多年来,人工智能的主要发展主要来自于机器学习领域,众所周知,这个领域的发展对数据的依赖非常强 。在实践当中,数据的搜集和整理不仅成本高、质量难控制,还可能衍生出侵犯个人隐私、威胁数据安全等问题 。为了应对这些问题,一些学者建议可以用合成数据作为真实数据的补充,供机器学习使用 。
与真实数据相比,合成数据具有不少优势:一方面,从训练效果上看,用合成数据进行训练的效果其实并不比真实数据差,在一些场合,它们的表现甚至更高 。在真实数据的形成过程中,可能混入很多不必要的噪声信息,这就可能对其质量造成影响,而合成数据则没有这样的问题 。麻省理工学院、波士顿大学和IBM曾联合做过一项研究,用真实数据和合成数据分别训练模型对人类的行为进行识别,结果采用合成数据进行训练的模型表现要比采用真实数据训练的模型更优 。另一方面,从成本上看,合成数据的成本要远远低于真实数据 。除此之外,由于合成数据都是生成而非搜集的,所以使用它们来进行研究还可以规避很多法律和道德风险 。
目前已经有越来越多的AI研究者开始用合成数据取代真实数据作为机器学习的材料,其对AI技术发展的贡献正在变得越来越显著 。正是因为这个原因,所以《麻省理工科技评论》(MITTechnologyReview)将合成数据技术评为了2022年全球十大突破性技术之一 。
(3)科学计算和模拟
在科学研究的过程中,通常需要进行大量的计算和模拟工作 。比如,如果科学家发现了某个星体的运行规律,怎样才能证明他的发现是正确的呢?最直观的方法就是根据他发现的规律计算出这个星体在未来某个时间点的位置,然后进行比对 。从这个意义上讲,精确的计算和模拟就是验证理论的关键 。
但计算并不是那么容易的事情 。例如,从理论上讲,各大星体之间的相对运动关系都可以由万有引力定律推出 。牛顿在发现三大定律之后,就曾经很自豪地宣称,他已经掌握了宇宙运行的终极奥秘 。但是,真实情况却并非如此 。以由于刘慈欣的小说而被人们所熟知的“三体”问题为例 。从表面上看,“三体”系统是非常简单的,总共只有三颗彼此纠缠的恒星,以及一颗夹在其中的行星,要模拟它的运动轨迹似乎并不难 。但一旦我们试图用牛顿力学来对其位置进行推导,就会发现得到的联立微分方程其实构成了一个混沌系统,其运动的轨迹是很难确定的,一个微小的扰动都可能带来巨大的偏差 。正是因为这个原因,所以在《三体》小说中,即使科技水平远超地球的三体人也无法制成一张精确的万年历 。
在现实中,远比“三体”系统复杂的问题比比皆是 。在对这些问题进行研究时,人们都不得不直面“维度爆炸”问题的挑战 。
举例来说,台风轨迹的预测就是一件计算量需求非常高的工作 。传统上,人们主要是依靠动力系统模型来进行预测 。这种方法会根据流体动力学和热力学等物理定律来构造大量的微分方程,用它们来模拟大气的运动,进而对台风的走向进行预测 。显然,这个动力系统是非常复杂的,不仅预测所需要的计算量非常大,并且非常容易受外生扰动因素的影响 。正是因为这个原因,所以世界各国即使动用了最先进的超级计算机,预测也经常出错 。最近几年,人们调整了预测的思路,开始尝试用AI模型预测台风,由此涌现了一大批相关的AI模型 。这类模型放弃了传统物理模型的预测思路,转而用机器学习的方法来进行预测,不仅大幅降低了计算负担,而且有效提升了预测精度 。比如,“风乌”模型在一个单GPU的计算机上就可以运行,并且仅需30秒即可生成未来10天全球高精度预报结果 。在最近预测台风“杜苏芮”的过程中,“风乌”模型预测的轨迹误差远远小于传统模型,从而为人们抗击台风做出了很大的贡献 。
(4)辅助证明
在一些学科(例如数学)的研究过程中,需要对命题进行理论上的证明 。从很早开始,人们就试图借助计算机来帮助他们完成这项困难的工作 。他们的基本思路是:首先将一个数学命题形式化(formalisation),然后借助计算机来对形式化的命题给出证明 。
在现实当中,很多数学命题是由自然语言表述的 。比如,著名的“四色问题”就是要证明“任何一张地图只用四种颜色就能使具有共同边界的国家着上不同的颜色 。”对于计算机来讲,这种自然语言是它们难以理解的,因此它们也不可能帮助人们以自然语言的形式来解决证明问题 。幸运的是,数学家们经过长期的努力,已经对大部分的数学分支建立起了公理化的表述体系 。借助于公理化体系,用自然语言表述的命题就可以表述为由一个系列逻辑判断构成的形式化命题 。通过特定的方式编码,计算机可以对这些形式化命题进行识别,于是,计算机就可以帮助人们用来进行辅助证明 。


推荐阅读