语音|贾磊畅谈AI语音技术的现在、过去和未来( 六 ) 在国内

百度鸿鹄芯片之后，贾磊团队又将整个语音交互的复杂算法、逻辑和数据模型耦合的语音交互技术，利用百度全新研发的端到端语音建模技术，抽象成多个单纯的深度学习计算过程，从而可以几乎在性能无损的情况下将整个语音识别过程从云端搬到客户端。基于以上思路的百度鸿鹄芯片二代也正在紧锣密鼓的研发中，一颗芯片解决远场语音识别和合成问题将不再遥远。 5G 时代的云端定义语音交互功能，端侧执行语音交互功能，云端一体的语音交互，很快会成为现实。
文章插图
百度智能语音全景图
在语音技术的产业化过程中，贾磊认为核心关键的要素是技术创新要把握产业需求，而不是闭门造车。比如百度的语音语言一体化的流式多级截断的注意力建模技术 (SMLTA) ，核心就是针对性的解决注意力（Attention）建模技术不能进行流式识别的问题，后者是在线语音识别技术必须的关键要求。再比如百度研发鸿鹄芯片，核心就是解决一颗芯片集成远场信号处理和远场唤醒，从而提升智能音箱的远场交互体验，降低智能音箱的成本。 “文以载道” ，技术提升的首要目标是产品体验提升，而非纯粹的学术创新。管理上要集中优势兵力优先解决技术工业应用时的痛点问题，要基于用户感知体验提升去迭代技术，而非单纯的技术指标提升。
端到端语音交互的技术挑战和难点
贾磊认为最大的挑战是对跨学科端到端的模拟数据的生成和大规模工业训练的深度学习训练平台的把握。端到端建模，目前越来越倾向于跨学科的端到端建模，这时候首先需要解决跨学科的数据模拟问题。每一个学科，都有一个学科假设的学科边界。之前几十年的研究成果，都是在学科边界的假设范围内进行的，所积累的各种训练数据，也是基于学科边界假设的。一旦学科边界被打破，每个学科的假设都不成立了，训练数据往往需要重新积累。所以，通常需要用模拟的方法产生跨学科的端到端的训练数据。如何模拟跨学科的场景数据，是端到端建模的第一个难题。端到端建模的第二个难题，是如何应对数据倍增时候的深度学习训练，这些问题，对通常的语音团队，会成为一个很大的挑战。比如在做信号和声学一体化建模的时候，要在近场语音识别建模的训练数据量上，叠加一个远场信号的声场模拟。这样的话，模拟的数据量会有一个成倍的增加。考虑到大规模工业训练的要求，上面提到的模拟数据的生成，还通常需要在 GPU 上进行。同时，数据成倍增加后，还要在 GPU 上进行高速有效的训练。这里面对深度学习训练平台的把握是至关重要的，否则跨学科端到端建模时候的训练数据模拟和训练速度优化中任何一个问题，都会是压垮端到端建模的最后一根稻草。
解决上述问题的核心是要有对深度学习算法技术和工程技术都要有深刻的理解，对深度框架有全面的把握。有能力修改深度学习框架的内核，解决 GPU 上的训练加速、内存优化问题和算法调优的问题。如果只是泛泛的理解国外开源框架的算法技术，只是跑脚本训练模型，那么再遇到上述训练数据模拟和训练速度优化的时候，就无从下手，最终难以解决跨学科的端到端建模问题。
AI 发展是否进入瓶颈期？如何破局 AI 落地难?
贾磊认为，人工智能近10年的发展是伴随着 GPU 算力、数据增加和深度学习算法创新的发展而发展的。目前训练数据的增加和深度学习算法的创新速度确实是变慢了，但是AI算力这个维度，还有很大的增长潜力。无论是云端的GPU服务器，还是端侧的AI芯片，都有很大的增长空间。 2018 年， OpenAI 的研究人员发布了一份分析报告显示，从2012年到2018年，在最大规模的人工智能训练中使用的算力增长了30多万倍， 3.5 个月的时间就翻一番，远远超过了摩尔定律的速度。未来5年， GPU的算力将达到CPU算力的1000倍。这些都将对语音交互产生巨大的推动作用。比如端侧 AI 芯片的发展，很快将使得端侧芯片具备完成和现在云端服务一样的语音交互能力，在一些场合比如汽车智能座舱等领域，语音交互的主体都将是由端上芯片在不需要联网情况下独立完成，大大提升了汽车行驶过程中的语音交互的可靠性和流畅性。

语音|贾磊畅谈AI语音技术的现在、过去和未来( 六 )

推荐阅读

宝宝沐浴露怎么选？婴儿用什么沐浴露好

北京日报客户端|世卫：上周新增新冠肺炎病例数量创疫情以来最高

春晚|前“央视一姐”，为拍戏离职，后嫁6代行医老公相夫教子

毒舌说电竞@有阿水的TES现在没有缺点，但IG似乎天克TES，Doinb分析TES打IG

大飞论球|山东男篮官方回应令前者羞愧，究竟是谁的错？，打脸小丁

中国石油石化|专栏：低油价时期新能源车对油品替代何如？

江疏影■江疏影真是啥造型都能驾驭，丝巾造型，连“奶奶辈”都不敢轻易选

「二三里资讯咸阳」小区保安被业主连捅数十刀！手指被砍断，因扫码起纠纷

兰萨罗特岛|丢失尊严的火山：温度高达600℃，却被人当成火炉卖烧烤

中国网地产|建发股份100亿元小公募公司债券获上交所受理

IBM公司|IBM公司董事长罗睿兰：与中国脱钩将造成巨大的经济代价

怎么长期保存纸怎么长期保存纸币

新香影视|被蔡徐坤粉丝怒骂后发文道歉。，迪丽热巴用蔡徐坤黑图为杨幂庆生

央视春晚首次彩排阵容曝光，网友：该来的没来，不该来的全来了

『貂蝉』王者荣耀：攒够13888金币别买婉儿貂蝉，舍弃诸葛，买她3天上王者

西安发现长恨歌里的骊宫-骊宫在哪

成都|1—10月四川外贸进出口超6686亿元同比增长21.7%

初级机客■未来将成为更加普遍，小米、OPPO都在主打的屏幕卖点

文汇|欧莱雅集团全球董事长：进博会提升全球首发含金量

黄埔飞龙|竟然会毁车，夏天汽车暴晒后这样处理