隐匿在语音识别背后的智能音箱之战

Canalys发布的2019年第三季度统计数据显示 , 全球智能音箱出货量增长44.9% , 达到2860万台 , 实现了进一步增长 。 其中 , 国内智能音箱出货量前三名为阿里巴巴(390万台)、百度(370万台)、小米(340万台) 。 而这个数据往前推四年 , 2015年的中国智能音响市场全年零售量只有1万台 。
隐匿在语音识别背后的智能音箱之战文章插图
这四年智能音箱市场极速增长的背后 , 隐匿的是大厂之间近乎疯狂的补贴战与价格战 。
比如小米在2017年中旬发布小爱音箱时 , 对外表示不计研发成本 , 直接给出299元的BOM价格 , 一下子就打破了智能音箱的价格平衡 。 然后阿里和百度迅速入场 , 直接把价格拉低至89元 。 数据显示 , 2019年上半年 , 智能音箱单台设备的平均销售额仅为193元 。 而据小音频厂商公开的音箱成本来看:不带屏幕的小型音箱成本在150元左右 , 加上WiFi模块、芯片、麦克风阵列等智能硬件模块在250元左右 。 这意味着这些产品都在亏本销售 。
隐匿在语音识别背后的智能音箱之战文章插图
那么为什么价格低利润小大厂们还要争先恐后做智能音箱呢?故事还要从2014年说起 , 14年是全球AI技术投入和市场规模高速增长的一年 , 谷歌在14年1月以32亿美元收购Nest智能家居厂商 , 苹果公司则在6月发布HomeKit , 至此科技行业掀起全球智能家居热潮 。 同年的十一月 , 亚马逊带着谁都没在意的Echo智能音箱悄然进场 。
隐匿在语音识别背后的智能音箱之战文章插图
Echo通过AI语音助手赋予音箱人工智能属性 。 凭借语音开放的策略 , 一经上市便广受好评 , 而彼时苹果联合创始人Steve Wozniak意识到:智能语音交互将成为计算领域下一个重要的平台 , 语音控制和人工智能将实现互联网与现实世界的无缝互动 。
【隐匿在语音识别背后的智能音箱之战】“智能音箱是个很有意思的产品 。 它看似微不足道 , 但其架构是未来所有人工智能产品的核心 。 可以通过授权 , 管理家中的各种智能电器 , 比如可以控制扫地机器人、空气净化器 , 冰箱热水器 。 通过语音命令来操控智能家居设备的方式 , 能让用户的生活更为便捷 。 智能音箱的背后是通过物联网连接硬件设备获取的用户、流量积累 , 也要比网络流量更加稳定 , 不会轻易受到风口爆发的掠夺 , 比平台型互联网公司更有价值 。 ”
此概念一出语惊四座 , 一时间智能音箱成了各家互联网巨头们的标配 。 中国也涌现出了数千个智能音箱品牌 , 据说光是华强北就有超过200个团队在做智能音箱的生意 。
语音识别技术给了智能音箱开启物联网的想象空间智能音箱之所以能够迅速崛起 , 很大一部分因素也在于语音识别准确性的提升 , 使得语音交互商业化落地成为了可能 。 而语音识别能够成为智能音响的核心 , 在于智能语音技术的提升 , 智能音箱只是技术外在的终端形态 。
《百面深度学习》这本书就为我们分别讲解了语音识别的算法和智能音箱对话系统的结构:
语音识别算法组成模块语音识别算法一般由编码器和解码器两部分组成 , 其中编码器包括信号处理和特征提取模块 , 编码器包括声学模型 , 语言模型 , 搜索算法等三个模块 , 整体框架如下图所示 。
隐匿在语音识别背后的智能音箱之战文章插图

  • 信号处理与特征提取
以音频信号输入通过信号去噪与增强等方式预处理音频信号 , 再通过视频转换以及相关的特征提取算子来提取音频特征 , 从而完成音频信号的编码 。
  • 声学模型
以提取的特征序列为输入 , 结合声学相关知识 , 为输入的特征序列生成升学模型得分 , 并得到语言特征到音素的映射 , 音素是根据语言的自然属性画出来的最小单位语言 。


推荐阅读