智东西:超强T4助力AI+语音猛冲行业领先,搜狗AI交互技术颠覆语音背后( 二 )


而在搜狗强大AI交互技术过程中 , 英伟达T4和TensorRT为搜狗实现算力突破 , 创新行业提供了强劲的技术支持 。
在陈伟看来 , 英伟达GPU在训练和推理两个方向都提供了强大的算力支持 。
一是面向线下的模型训练 , 需要GPU具有充分强大的算力和足够的显存 , 以驱动模型基于大数据的训练 , 如目前使用的TeslaV100和P40;二是面向线上的推理和部署 , 这对GPU显存和算力的需求相对较小 , 适合对大规模海量计算机进行部署 , 如TeslaP4和T4 。
其中 , T4GPU专为优化和提升AI性能而打造 , 配备了英伟达TurningTensor核心 , 能够在实现高效算力的同时 , 进一步支持服务器实现AI训练和推理的横向扩展 。
T4GPU具有三大性能优势 。 一是其能够优化可扩展服务器 , 能效高出CPU的50倍以上 , 大大降低运营成本;二是它具有多精度计算特性 , 可实现FP32、FP16到INT8以及INT4精度的突破性AI性能 , 其训练性能达到CPU的9.3倍 , 推理性能超36倍;三是它能够加速深度学习和机器学习的训练、推理、视频解码和虚拟桌面 , 并支持所有AI框架和网络模型 , 进一步提高大规模部署的效用 。
智东西:超强T4助力AI+语音猛冲行业领先,搜狗AI交互技术颠覆语音背后
文章图片
此外 , 搜狗在使用GPU推理的过程中 , 还利用了英伟达超大规模推理平台TensorRT , 以加速深度神经网络的推理 。
据了解 , TensorRT超大规模推理平台是英伟达专为全球开发者和数据科学家们开发 , 其配备了英伟达T4GPU , 能够加速图像、语音、翻译和推荐系统等广泛领域的神经网络 。 同时 , 它还支持加速业内各大主流的深度学习框架 , 例如TensorFlow、PyTorch、MXNet、Chainer和Caffe2 。
“好的算法和庞大的数据 , 一定需要好的运算平台 。 ”在陈伟看来 , 英伟达的GPU和AI推理平台为搜狗AI技术体系的构建 , 提供了批量运算或并行运算的能力 , 并逐渐形成良好的开发生态 。 三、T4加持 , 语音识别准确率高达98%
如今 , 搜狗在自然交互和知识计算两个AI战略方向上 , 布局了语音、计算机视觉、对话、翻译、问答多个领域 , 并在搜狗分身、搜狗同传、搜狗变声等多个差异化赛道持续领跑 , 对算力需求进一步提升 。
“随着搜狗语音识别、多模态识别(语音+唇语)、OCR、机器翻译、语音合成、图像生成等应用场景和需求的扩展 , 它们对算力资源的需求是根据不同任务而定的 。 ”陈伟举例 , 搜狗的多模态识别服务 , 是将语音和唇语的两个模态融合后再进行识别 , 而这一多模态感知的方式也使得模型对运算的要求更加复杂 。
智东西:超强T4助力AI+语音猛冲行业领先,搜狗AI交互技术颠覆语音背后
文章图片
在陈伟看来 , AI语音领域对运算的需求只会越来越大 。 他说 , 尽管近几年语音识别颠覆性的创新和突破越来越少 , 但现有技术还在持续迭代中 , 模型本身的学习能力也将不断加强 。
与此同时 , 随着5G、IoT技术的推动 , 大数据也在急剧爆发和增长 , 这对于AI公司来说无疑意味着更复杂的模型和更庞大的训练数据 , 从而对GPU的算力提出了更高要求 。
在搜狗的语音转写应用中 , 语音识别准确率是影响用户体验和应用的重要因素之一 。
据介绍 , 目前搜狗语音输入法在业内具有领先的中英自由说能力、远场语音识别解决方案 , 以及业界首创的语音修改能力 。 例如 , 搜狗语音输入法能识别日韩英法等10余种外语和粤川等10种方言 , 支持语音增强和个性化交互 , 同时其语音识别准确率最高为98% , 日均语音输入调用次数突破十亿次 。
实际上 , 搜狗语音识别准确率的提升 , 主要依靠算力、深度学习技术和语料数据训练 。 在算力方面 , 搜狗从2017年起开始采用英伟达TeslaP4来加速和优化语音识别模型 。


推荐阅读