人工智能三大关键能力，终于有人讲明白了( 二 ) _人工智能

02 感知

文章插图
▲感知——解释周边世界
如果说有某个领域为人类所独有，那就是感知了。数十年来，我们尝试模仿人类的能力去感知周围的世界，却鲜有成功。理解一幅图画或将语音转文字的复杂度使其几乎无法用编程的方式实现——想象一下如何用一步步的指令来定义图片里的一匹马。
机器学习算法更适合解决这类问题。然而，传统机器学习算法在处理感知任务时的准确性与人类能做到的程度相去甚远（我仍然记得在windows Vista上给开发们演示语音识别功能的情景……这件事教我学会要做个更坚强的人！）。
以图像分类为例。ImageNet是图像分类中最著名的挑战。自2010年起，全球的参与者提交他们的算法来创建最精准的模型。在竞赛初期（即2010年），能达到的较好的误差率约在25%左右。作为比较，同一数据集下人类对应的误差率约为5.1% 。
到了2012年， Alex Krizhevsky（一位来自多伦多大学的学生）提交了他的方案：一个包含8层名为AlexNet的神经网络。AlexNet击败了其他竞争对手，达到了15.3%的误差率—比仅次于他的竞争者低了10个点。
在接下来的数年内，他引入的技术被持续改进并增加了更多层数，直到2014年，一个名为googleNet的22层神经网络达到了6.7%的误差率。
次年，一个来自微软研究院的团队提交了使用全新神经网络技术的作品，其神经网络的深度达到了超大的152层，误差率仅为3.57% ，首次超过了人类的表现。
深度学习永远地改变了计算机视觉。如今，这项技术实际上已经被用于计算机视觉的所有高精度场景，这使其成为企业中最常见的用例。以下是一些计算机视觉在当今的应用：

为图像的内容分类（影像分类）
识别一幅图像中的多个物体，并识别每个物体的边界（物体检测）
识别图像中的场景或行为（如：工作场所的不安全情形，或零售商店的补货）
检测人脸，识别身份，甚至辨识每张脸的情绪
识别书写文本，包含手写体文本（光学字符识别）
鉴别图像或视频里的攻击性行为

研究员Harold Stolovitch和Erica Keeps在他们的书Telling Ain’t Training（ASTD出版社）中断言，我们获取的信息中，有83%来自视觉，次之是听觉，提供了11%的感觉输入。两者合起来占据了我们从外界获取信息的94% 。毫无疑问，音频处理是人工智能关注的另一个较大领域，仅次于计算机视觉。
相似的深度学习技术可以应用到音频信号上，帮助计算机识别声音。你可以利用这项能力区分鸟儿们的歌声，或通过风力涡轮机发出的声音来预测故障。
不过人工智能在音频处理方面最激动人心的还是语音识别。用于语音识别的参照数据集被称为总机，它包含了约260小时的电话交谈录音。测量后人类的转录误差率为5.9% 。该误差率在2016年被微软研究院设计的神经网络追平，并于1年后被其以5.1%的误差率击败。有史以来第一次，一台机器可以比人类自身更好地理解人类。
这些突破不但让机器更懂我们，而且使得机器可以用自然的方式与我们沟通。2018年， Azure上线了基于深度学习开发的文字转语音服务，该服务能够合成出与真人无异的人声。
这些能力的结合将实现计算机科学的法宝：全自然用户接口（NUI）。机器既可以看见和理解人类，又可以用自然语言与人类交流，这看起来就像是我们已经实现了科幻电影的幻想一样。不过，我们真的做到了吗？要与计算机进行真正有意义的交流，计算机不但要能转录我们说的话，还要能理解话里的意思。
自然语言处理（NLP）是人工智能中从人类语言中分析、理解并提取含义的领域。NLP最常见的场景之一就是语言理解，语言理解是现代会话型人工智能体验（比如数字助理）的基础。
当你向Siri、Alexa或Cortana询问天气时，系统首先将你的会话音频转换成文字，然后通过自然语言理解模型抽取出你的意图，然后将意图（如“获取天气”）映射到对应输出（在这个例子中，就是提供当地的天气信息）。