智东西:超强T4助力AI+语音猛冲行业领先,搜狗AI交互技术颠覆语音背后


智东西:超强T4助力AI+语音猛冲行业领先,搜狗AI交互技术颠覆语音背后
文章图片
智东西
文|韦世玮
随着AI技术的爆发和发展 , 智能语音技术已逐渐成为人们生活中最普遍的AI交互技术之一 。
事实上 , 语言作为维系人与人之间情感和交际的重要纽带 , 一直以不同的承载形式为人们所用 。 例如在搜狗以语言为核心的AI技术布局中 , 从中文、多方言和外国语种的语音识别转写、AI同传翻译 , 再到个性化的语音合成和变声……在人们生活中语言应用的方方面面 , 都不乏搜狗的身影 。
如今 , 搜狗作为国产AI+语音领域颠覆传统语音行业领先者之一 , AI语音技术具有高识别率、高准确率、低时延和多模态融合等优势 , 已广泛应用到教育、商务、旅游等多个应用场景 , 并已深入你我身边的千家万户中 。
其中 , 搜狗语音识别准确率最高可达98% , 语音日均请求量已达十亿级 , 尤其在录音笔行业 , 其搜狗输入法通过AI赋能 , 也已为市场超90%的录音笔提供接入服务 。
智东西发现 , 在搜狗AI技术体系一次次引领行业创新 , 颠覆传统行业生态的背后 , 是搜狗AI算法平台和深度学习平台Eva搭建起的“骨架” 。 而AI平台和深度学习框架的背后 , 强大的算力平台也助力其构筑起了语音领域的强大的竞争力和领先性 。
那么 , 在搜狗多年的AI业务布局中 , 搜狗是如何逐渐构筑起自己庞大的AI交互技术生态?近日 , 智东西与搜狗AI交互事业部首席科学家陈伟进行了深入交流 , 试图探寻搜狗AI交互技术其背后的故事 , 进一步挖掘智能语音技术的核心与发展 。
智东西:超强T4助力AI+语音猛冲行业领先,搜狗AI交互技术颠覆语音背后
文章图片
一、国内AI语音行业先锋 , 语音处理日请求量超十几亿次
2020年开年以来 , 新型冠状肺炎病毒疫情一直影响着国内市场的复工和发展 , 但陈伟带领的搜狗AI交互技术团队在科研领域的技术应用和研究 , 并没有受到影响而减缓 。
“搜狗在AI领域始终坚持的就是以语言为核心 。 ”陈伟谈到 , 他所带领的搜狗AI交互事业部团队 , 核心解决的问题则是围绕自然交互领域 , 让人机交互更加自然 , 尤其是多模态的交互 。
实际上 , 搜狗以语言为核心的AI技术主要布局自然交互和知识计算两大赛道 。
搜狗AI主要通过语音和图像的感知、对话、翻译等来实现人与计算机之间的交互;另一方面 , 知识计算则更多地围绕基于海量的网络数据或已有数据 , 通过搜索和自然语言处理(NLP) , 从中抽取出真正的知识以解决问题 。
从2012年起 , 随着搜狗开始投入智能语音技术的研发 , 其AI团队规模已发展至将近1000人 。
而在搜狗AI体系构建的背后 , 有一个名为Eva的搜狗深度学习平台则发挥了关键作用 。
“在深度神经网络建立之前 , 搜狗的每一项技术如语音合成和语音识别 , 是两个独立的方向 。 ”陈伟介绍到 , 但在Eva构建之后 , 从底层的模型架构到算法设计等方面都形成了一个端到端的有机整体 。
通俗地说 , 就是它能够将语音、图像、NLP等技术集成在一起 , 为研发人员统一提供深度学习模型的训练 。
智东西:超强T4助力AI+语音猛冲行业领先,搜狗AI交互技术颠覆语音背后
文章图片
由于最初的模型和算法并不复杂 , 搜狗一开始的深度神经网络仍然依靠CPU来运行 。 但随着数据的增长和算法复杂度的提升 , 模型训练的数据规模十分庞大 , CPU早已无法满足深度神经网络的训练需求 。
例如 , 在语音模型训练过程中 , 动辄需要十几万小时的数据 。 “别说CPU , 就算用数十块英伟达GPU来进行训练 , 也需要数月的时间才能完成 。 ”陈伟说 。
因此 , 随着深度神经网络并行计算需求的增加 , 以及模型愈发复杂 , 搜狗从2013年后开始逐渐探索用GPU来对模型进行训练 , 以持续迭代线上的AI服务性能 。 据了解 , 基于英伟达强大的GPU算力支持 , 目前搜狗语音的日均请求量已达十亿以上 。 二、英伟达GPU+超大规模推理平台 , 助力搜狗AI语音两大创新方向


推荐阅读