新智元|30分贝精准拾音,90分贝超强降噪,谛听表现不输国际语音巨头!( 二 )


拾音准确只是获取纯净语音的第一步 。 现实环境往往更复杂 , 各种干扰噪声不断 , 再加上回波和混响 , 使得语音信号的处理更加困难 , 所以后期降噪也是重要一环 。
面对噪音的挑战 , 讯飞谛听首先通过声音定位技术精准拾取音源 , 进行语音增强实现初步降噪 , 然后通过波束形成和基于深度学习的语音增强算法 , 对非方向性和方向性的噪声进行抑制 , 最后对音量大小自动增益并根据人耳的听觉特点进行优化 , 使输出的声音更加饱满 。
分贝见分晓:「谛听」对飙国际巨头 , 领跑超小音量拾音
在拾音领域 , 德国的森海塞尔、美国的舒尔都是行业巨头 , 那么 , 讯飞谛听跟它们相比会有什么样的表现呢?
前段时间 , 某科技博主的一支关于拾音器的评测视频引发了大家的关注 , 在和德国森海塞尔、美国舒尔的较量中 , 谛听表现出彩 , 毫不逊色 ,评测频显示:
在模拟30分贝悄悄话的场景下 , 森海塞尔拾音稳定 , 内容清晰 , 舒尔拾取的声音非常小且难以分辨说话内容 , 讯飞的谛听系列产品拾取的内容清晰 , 且音质听感较好 。
新智元|30分贝精准拾音,90分贝超强降噪,谛听表现不输国际语音巨头!
本文插图

接着 , 评测者又分别模拟了环境噪音为70分贝和90分贝的情况 , 结果显示即使是90分贝的极端噪音环境 , 谛听都能有效抑制 , 对话内容依旧清晰 。
新智元|30分贝精准拾音,90分贝超强降噪,谛听表现不输国际语音巨头!
本文插图

谛听系列产品的出色表现 , 离不开科大讯飞21年来始终如一地对源头核心技术的自主创新 。
2018年至今 , 科大讯飞已获得30项人工智能国际竞赛的冠军 , 涵盖语音识别、语音合成、机器阅读理解、手势识别、图像识别等诸多领域 。
今年7月 , 在DCASE 2020挑战赛的声音事件定位与检测任务中 , 科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室摘得桂冠 。
新智元|30分贝精准拾音,90分贝超强降噪,谛听表现不输国际语音巨头!
本文插图

长期以来 , 拾音器这类专业语音设备一直被海外品牌所占据 , 实现源头可控意义重大 。
科大讯飞作为智能语音行业的佼佼者 , 一直坚信「中文语音技术应由中国人做到最好」 , 讯飞谛听或许正是其20多年专注于源头核心技术的最佳体现 。
补位视野盲区 , 「谛听」将成多模态人工智能新纽带
除了语音的精准拾取和噪声抑制 , 讯飞拾音硬件还可以与其相关谈话系统结合 , 赋能于政法、交通、安防等特殊场景和关键部位 , 实现说话人分离 。
该技术可以将自然交谈或者会议场景中的多个说话人自动区分开并转写记录 , 使得音频、文字的利用更便捷高效 。
新智元|30分贝精准拾音,90分贝超强降噪,谛听表现不输国际语音巨头!
本文插图

融合了精准拾音、深度降噪和说话人分离等先进技术的谛听 , 将为更多使用场景带来全新的畅想空间 。
配备谛听的安防设备不光有了摄像头这个鹰眼 , 还长了「顺风耳」 , 视频无法捕捉的情景 , 谛听可以听到 , 语音和视频被有机的结合起来 , 再也不用对着「默片」猜唇语、对口语了 。 对于安防领域来说 , 将会是一个巨大的革新 。
新智元|30分贝精准拾音,90分贝超强降噪,谛听表现不输国际语音巨头!
本文插图

谛听听到的是声音 , 而声音最能体现人的情绪 , 结合视频中的图像行为判断 , 音视频多模态智能对群体性和违规事件可以有很好的预警 , 单视频采集的视野盲点也可以得到有效补位 。
未来 , 谛听不仅仅停留于前端 , 还将成为链接各种智能图像、视频应用的纽带 。
据了解 , 科大讯飞拾音产品已经广泛应用于公安、检察院、法院等政法系统以及智慧园区、智慧交通的建设中 , 让城市能更好的「倾听」每一个角落的声音 。


推荐阅读