智东西:超强T4助力AI+语音猛冲行业领先,搜狗AI交互技术颠覆语音背后( 三 )
早在2017年 , 搜狗通过P4的并行计算推理速度 , 将语音识别请求效率提升50% 。 在之后的两年时间里 , 随着Cuda升级至9.1以及算力的持续优化 , 搜狗的语音识别请求效率不断提升 。 2019年11月 , 搜狗将P4升级至T4后效率再度实现突破 , 提升20% 。
文章图片
伴随着引进T4GPU , 其语音识别峰值日均调用量也从2017年的3.2亿次 , 迅速增长到了2019年第三季度的8.3亿次 , 有效实现了对海量识别请求的处理 , 进一步强化了自身语音识别技术的潜力 , 为行业创新和变革提供了新的发展方向 。
文章图片
四、T4优化WaveRNN声码器 , 推动源技术从学界落地产业
除了语音识别之外 , 语音合成亦是检验语音技术公司实力的标准之一 。
搜狗语音合成支持男女多风格和中英俄多语种共数十种音色 , 同时系统只需用户上传5分钟的音频 , 即可生成该说话人的音色 , 甚至能实现说话人的风格迁移 。
技术方面 , 搜狗的语音合成技术基于WaveNet和WaveRNN声码器研发 , 但由于WaveNet运算复杂度较高 , 因此它最初很难实现搜狗线上实时生成语音的服务 。
为了优化WaveRNN声码器 , 搜狗一方面在WaveRNN源技术论文的基础上进行了大量的研究工作 , 并为了实用化修改大量代码结构;另一方面则基于T4对WaveRNN进行优化 , 并定制开发实现的gemm算子 , 进一步降低了语音合成的实时解码率 。
搜狗通过T4的优化性能 , 也进一步打破学界与产业之间的迁移壁垒 , 真正实现国内语音行业首创 , 让WaveRNN声码器技术更好地服务AI语音行业的创新和发展 。
文章图片
不仅如此 , 随着搜狗AI交互技术开始涉及更多图像相关的应用 , 如虚拟人、OCR、手写识别、唇语识别、图像以及视频生成等 , 其深度学习平台对高可用、并行训练服务能力的需求亦进一步提升 。
例如 , 在搜狗AI平台对外开放的过程中 , 会有大量的用户涌入 , 基于平台进行训练并定制自己的模型 , 而在这一过程中 , 搜狗AI平台需要在任务之间做好排队调度 , 并充分考虑GPU的负载均衡等问题 。
“因此从平台层面看 , 我们的服务会通过AI开放平台借助深度学习的能力 , 去帮助更多的用户实现定制化AI的可能性 。 ”陈伟说到 。
值得一提的是 , 随着英伟达TensorRT7的推出 , 目前搜狗也开始在部分任务上尝试使用该平台 。 未来 , 随着搜狗AI技术和业务的迭代和创新 , 也会将TensorRT7逐步引入到更多任务中 。 五、高算力GPU助推语音交互和AI计算平台未来发展
如今 , 搜狗在AI语音听写方面 , 已与爱国者、纽曼、索尼、万城四家录音笔行业头部企业成立AI创新联盟 , 联合搜狗输入法为市场超90%的录音笔提供接入服务 。
除此之外 , 搜狗通过语音+唇语的多模态识别技术研发唇语识别系统 , 嘈杂环境下识别准确率提升40%以上 , 同时搜狗还通过搜狗翻译、合成和识别等技术 , 在跨语言交流、机器同传等多个应用领域拿下行业领先的成绩 。
未来 , 随着AI交互技术应用范围的不断扩展 , 搜狗也将针对搜狗AI开放平台、多模态技术融合等方面进行升级 。
搜狗将借助AI开放平台加速推动AI核心能力对外开放;语音识别和语音合成两方面 , 包括个性化语音合成、语音变声、多模态交互、手写识别、多模态同传等技术也将带来更多的体验创新和升级 。
从内部看 , 搜狗也将真正打通各个研究团队在GPU资源上的共享能力 , 并基于平台为公司提供一个相对通用的、统一的一套深度学习的并行训练能力 。
推荐阅读
- 南方PLUS饶平14名个体户获贷款335万元,“创业贷”助力复工复产
- 天津经济技术开发区“海陆空”五大集群助力泰达跻身“国字头”数字服务出口基地
- 硅谷聊科技商家不亏吗?,终于有人说清楚了!为啥拼多多9块钱的东西也包邮
- 西安新闻网我市科学家研发原创技术助力实现我国首次太空3D打印
- 「科学家」千年沉船内装有“超精密仪器”,科学家:这个东西不属于地球!
- 宅女科技范颜值高性能超强悍,学生党一眼心动,目前销量爆表的4款手机
- 「自媒体」自媒体运营即将干货分享,助力你自媒体创业,摆脱打工困局!
- 国商园区国贸电商产业园助力企业参展网上广交会
- 权松科技黑科技层出不穷,全球前五国内第二!Ace2助力OPPO布局5G市场
- 【科学家】千年的沉船发现“超前科技”,科学家猜测:东西可能不属于地球