语音|贾磊畅谈AI语音技术的现在、过去和未来( 二 )


如何理解语音交互认知本源
创业回到百度后 , 贾磊从之前侧重语音算法技术创新 , 变成算法创新和产业拓展兼顾 。 也许是认识到了资本对于技术的推动作用 , 贾磊要求团队成员都要有成本意识和营收意识(当然技术团队的营收都是概念上的 , 而不都是绝对实际的营业流水) , 都要具备业务整体推进能力 , 而不是单体算法创新 。 这也是他们投入做百度鸿鹄芯片的一个背景 。 讲这些乍一听 , 好像和人类认知没有关系 , 但是真正的把技术应用到实际的应用过程 , 贾磊越来越发现 , 人类的认知过程 , 不是一个简单的学科划分过程 。 不是说学语音的就只解决语音的认知 , 很多时候认知是视觉、听觉、理解一体化的一个过程 , 比如任何人交流中的肢体语言 , 就对人的意图理解起到举足轻重的作用 , 再比如语义理解过程和语音识别过程 , 在具体的产业应用中 , 是密不可分的 。 学科划分有边界 , 但是人的认知本源可能是一体的 。 解决语音交互的问题 , 不能单单从语音技术出发 , 要放在产业应用中 , 语音、图像和NLP一体化的规划和解决问题 。
时间就像海绵里的水 , 努力挤才能平衡工作和家庭
贾磊曾在2015年荣获全国劳模称号(互联网业首位全国劳动模范) , 可以想见工作强度非常大 , 关于怎样平衡工作和家庭 , 他认为互联网的工作强度都很大 , 互联网工作的朋友们都牺牲了很多自己的生活休息时间 。 “我个人而言和从事互联网行业的伙伴们一样 , 都是全身心的投入工作 , 家庭生活感觉确实参与的少一些 。 陪孩子的时间也比较少 , 有时候工作忙了 , 早晨一大早出来 , 晚上很晚回去 , 回去后孩子也早就睡了 。 早晚两头都见不到孩子 , 非常想她 。 每次见到孩子冲着我笑的小脸 , 我都觉得很自责 。 如果不是很忙的话 , 我都尽量早晨早一点起来 。 陪她吃早饭 , 送她上学 。 上学路上 , 我会教她看红绿灯、走斑马线以及避让绿灯时候右转的车辆 。 之后 , 我赶紧开车奔向公司 , 正好能赶上大清早开始工作 。 我觉得时间就像海绵里面的水 , 只要你使劲挤 , 总是能挤出来的 。 不要错过陪伴孩子长大的时间 , 他们长大的很快 , 一晃就不再需要我们的陪伴了 。 ”
(下)
上篇我们聊到了贾磊老师与智能语音技术的情结 , 下篇我们将着重从技术侧和你聊聊智能语音的过去、现在和未来 , 干货满满 。
智能语音行业发展历程解析
IBM ViaVoice 时代的语音技术
语音行业在2000年左右 , 迎来了第一个产业高潮 , 也就是IBM的ViaVoice 语音录入软件 。 当时人们把这个软件安装到PC机器上 , 就可以在计算机前面朗读报纸或者新闻内容 , 或者录入一些简单的日常用语 , 识别率也还不错 。 于是工业界有了一次大规模连续语音识别的产业化应用的热潮 。 当时 , ViaVoice时代的语音技术还是以HMM建模和混合高斯系统 (GMM) 为声学建模核心的建模技术 , 语言模型采用的是基于 Ngram 的统计语言模型 。 因为 PC 上的内存限制 , 语言模型体积也只有几十 M 。 另外 , 当时可以获得的文本语料也是有限的 , 所以语言模型能覆盖的内容范围很小 , 当时主要集中在新闻报纸和日常用语领域 。 因为 HMM 系统和混合高斯系统建模能力有限 , 这时的连续语音声学训练语料库也就只有数百小时 。 这个时候的语音识别系统对说话方式和口音的要求也很严格 , 说话方式必须是朗读方式 , 口音也要求必须是标准普通话 , 否则 , 识别率迅速下降 。 很快的 , 人们发现 ViaVoice 难以满足人们在 PC 上把声音转成文字的产业需要 。 慢慢地 , ViaVoice 的产业热情就逐渐降温了 。
语音|贾磊畅谈AI语音技术的现在、过去和未来文章插图
早期Windows上的ViaVoice软件
在2003年贾磊毕业的时候 , 基本上人们对于语音输入的产业期望已经很低了 , 各大公司都降低了语音技术的投入和预期 。 贾磊刚毕业就立刻迎来了语音技术的第一个低潮期 , 当时很多做语音专业的学生都转换方向 , 不少人做语音也是选择留校 , 而不是工业届 。 当时国内各大公司比较多见的语音需求是手机上的数字和人名拨号系统、以及车载语音导航等嵌入式产品研发 , 技术也大都集中在设备端侧的单通道语音识别或者是语音合成 。 技术上讲 , 这些应用都是嵌入式孤立词语音识别系统 , 其特点是只能识别特定的指令词和句式 。 之后的几年 , 除了零星的嵌入式设备应用外 , 语音技术在工业界的拓展乏陈可新 , 语音产业持续低迷 。


推荐阅读