大众新闻|会撒娇有情感,小米语音声学技术新升级!
近日 , 小米发布了小爱音箱Art , 这款音箱采用全新的金属机身 , 机身扬声器开孔被设计成0.7mm厚度的金属饰板 , 可谓功能与质感兼具 。 小米小爱音箱Art通过一颗2.5英寸的全频扬声器 , 让声音的细节呈现得更加自然 。
作为小米推出的第9款智能音箱 , 小米小爱音箱Art在技术上也全面升级 , 搭载第三代小爱同学 , 并支持情感化语音交互、全屋播放及就近唤醒 。 通过这款音箱得以看出 , 小米的声学语音技术已经实现全面自研 , 并在自研部分领域持续领先 。
情感化语音交互:通过迭代声学模型 , 支持情感TTS
对于智能设备而言 , 实现情感化语音交互是一项挑战 。 “情感”本身就是主观的、多样的感受 , 一种情感可以有多种呈现形式 , 更适合人与人的面对面对话 。 情感化语音交互对技术要求较高 , 要技术方、数据方、质检方等多方对情感浓度、情感诠释方式等标准达成共识 , 将较主观的情感音素统一化、标准化 。
随着人工智能技术的发展 , 在实现人机对话的基础上 , 各大厂商都在情感化语音交互的领域探索 。 为了让机器加入情感元素 , 小米AI实验室在“情感数据量有限”的前提下 , 通过不同声学模型、不同声码器组合最终上线自然、拟人效果的情感TTS , 成为业内首家情感化TTS大规模落地的企业 。
通过小米AI实验室的不断深耕 , 此次小米小爱同学Art全面支持情感化语音交互 , 基于有限但类型不同的情感音频数据(如开心、关心、害羞、惊讶等) , 通过不同技术训练并迭代声学模型 , 最终支持情感TTS合成并实现“小爱同学”情感化、拟人化 。
未来 , 小米语音将升级此技术——支持情感TTS实时合成 。 从下图中可以看出 , 在大数据集的预训练模型基础上 , 利用目标说话人的中性情感数据对网络进行微调 , 得到目标说话人的中性情感模型;在此基础上用带情感的小批量数据对模型进一步微调 , 最终得到不同情感的模型 , 最终实现情感合成 。
本文插图
【大众新闻|会撒娇有情感,小米语音声学技术新升级!】
在国内语音助手行业中 , 小米首次实现情感化TTS的大规模落地 , 未来将打造情感更加丰富的“小爱同学” , 为用户提供多元化的语音交互体验 , 为IoT设备增加更丰富更立体更逼真的语音交互体验 。
语音支持全屋播放:立体声组合同步播放相同音频
小米小爱音箱Art , 是首款可以实现语音支持全屋播放的设备 。 用户直接对小爱同学说“全屋播放XX” , 无需提前在App端进行手动设置 , 即可实现一句话语音交互 , 为用户提供了更便捷的使用方式 。
要实现这一功能 , 音箱需要具备AIoT放音的技术 。 小米AIoT放音的自研技术在攻克无线网络抖动、晶振时钟漂移以及弱网下数据不可达等一系列技术难题后 , 将不同音箱播放声音的同步优化到微秒级别 , 同时还实现了在不同型号的音箱之间的数据同步 , 提供更细腻的音质和宽广的声像 。
本文插图
由这张图可见 , 立体声支持APP创建组网 , 才能进行语音指令和APP操作播放 , 全屋播放同时支持语音指令和APP创建组网 。
立体声功能同时支持语音指令和app操作播放 , 云端音频流下发至音箱A , 音箱A将立体声分离为左右声道 , 音箱A自己播放左声道音频并将右声道音频流下发给音箱B , 由B音箱播放右声道 , 精准的同步技术保证音箱A和B同时播放立体声的左右声道音频 。 全屋播放功能支持语音指令和app创建组网 , 音频流下发至音箱C , 音箱C将音频流混合为单声道信号并下发给组内其他的音箱设备同时播放 , 不区分声道 , 可支持多个设备 。
推荐阅读
- 群众网|还有哪些互联网最初的记忆在逐渐淡出大众的视线,你还记得吗
- 新机发布,雷军|原创 雷军向大众征求旗舰机必备功能,米粉:我可以不用,你不能没有!
- 新华社新闻|美媒:科学家提出新方法,或能确定“第九行星”性质
- 大众新闻|齐心好视通助力山西路桥集团开启数字办公新业态!
- 大众新闻|手握1000万却花不出去?为了帮助黑医美受害者,新氧发了大愁
- 大众新闻|海外高知妈妈都头疼的中文学习,LingoAce有什么好办法?
- 大众新闻|讯飞智能演示器抢先体验,扫码带走你所讲,绝对办公神器
- 新华社新闻|土星21日“冲日”,公众可睹“指环王”风采
- |蛤蜊壳、坚果壳属于什么的垃圾?
- 澎湃新闻|科技附体,人人都成钢铁侠?