车东西|小鹏汽车语音负责人:语音是车内最佳交互方式


车东西|小鹏汽车语音负责人:语音是车内最佳交互方式
本文插图

车东西()文|Juice
目前 , 几乎每家车企都会给旗下的新车装上语音助手 , 车主可以通过语音助手来完成一些开关车窗、开关空调、搜索音乐等基本功能 。
可以说 , 语音助手已经成为了目前车上主要的交互方式之一了 , 但各家的语音助手之间的智能程度又有比较大的差别 。
此前 , 小鹏P7上市的时候 , 小鹏官方展示了一段语音助手的视频 , 在视频中 , 车主可以随意打断语音助手 , 并下达新的指令 , 还可以利用语音助手进行座椅调整等车身控制 , 这也给了消费者更多的想象空间 。
那么车载语音助手是如何开发的呢?语音助手上车需要做哪些独特的设计呢?语音助手在没网的时候如何工作?带着这些问题 , 车东西采访了小鹏汽车语音方面的负责人赵恒艺 , 对车载语音助手有了更多的了解 。
一、语音功能和思必驰合作开发 语音识别率达92%对于小鹏的语音团队外界了解并不多 , 在采访中车东西得知 , 小鹏的车载语音团队目前有50余位研究员 , 负责人赵恒艺来自思必驰 , 其他的研究员也都是来自微软、阿里、三星、百度等科技公司 , 目前在广州和北京分别展开研究 。
除了团队情况 , 赵恒艺还向车东西介绍了小鹏的语音助手开发情况 。
据赵恒艺的介绍 , 小鹏的语音技术是和思必驰合作开发的 , 小鹏首先搭建起框架 , 语音识别过程中具体的语音唤醒、语音识别采用了思必驰的技术 , 一些基本功能如打电话、查天气和语音合成等也是采用了思必驰的技术 。 而更为核心的语义解析、识别增强、语义抗噪、语义打断、自然语言处理等功能则是小鹏自主研发 。
在了解了小鹏的语音技术团队和开发情况后 , 赵恒艺向车东西介绍了语音技术的原理 , 赵恒艺表示 , 语音技术分为几个模块 , 首先是语音唤醒的功能 , 说一个唤醒词 , 通过本地的算法就可以激活车辆的语音助手 , 激活之后会有一个本地和云端混合语音识别的模块 , 将车主的指令压缩上传到云端 , 通过解码器把语音转成文字 。
车东西|小鹏汽车语音负责人:语音是车内最佳交互方式
本文插图

▲小鹏G3车机
语音转换成文字之后再通过一个识别增强的模块 , 进行自然语言处理 , 对识别的结果进行校验 , 校验无误后再进行语义解析 , 识别出指令的真实意思 , 之后进行语义分发 , 将指令发放到车辆的控制中心 , 最终完成语音对车辆的控制 。
车东西在实际测试中发现 P7还支持方言识别 , 具体怎么做到的呢?
赵恒艺表示对方言的识别基本上基于带口音普通话的识别 , 因为目前小鹏的车在全国各地都有 , 很多口音的人都会对语音助手进行使用 , 为了更方便用户使用 , 小鹏会定期收集一些语料 , 然后给供应商来完善语音系统 。
对于带口音的普通话的识别率问题 , 赵恒艺也做了说明 , 他认为对于方言的识别主要是一个概率问题 , 有一些语音可以识别 , 但有一些可能就无法识别了 , 目前小鹏的语音识别正确率达到了92% , 大部分语音都能准确识别 。
二、本地计算和云端计算并行 设计初就适配车机和降噪车企如果想要实现语音助手对车辆的控制 , 就需要很强的算力做支撑 , 而小鹏汽车的语音可以控制车上的大部分功能 , 小鹏汽车是如何解决算力的问题呢?
赵恒艺对此表示 , 小鹏的语音助手的处理和决策在本地和云端两部分进行 , 唤醒、车控这些基本的功能都会在本地进行 , 更多需要计算能力的功能则会在云端进行 。
在没有联网的情况下 , 会进行网络重连 , 一旦重连成功 , 会首先恢复云端计算 。 如果实在无法恢复网络 , 导航和音乐等需要借助于云端的功能就无法实现 , 但对车辆的控制是可以实现 。


推荐阅读