十年之后,科大讯飞终于「独木成林」
机器之心报道
作者:蛋酱
又是一年1024 , 对于全球开发者来说相当特殊的一天 。
1024这一天 , 无论你身处何方 , 都能感受到浓浓的节日氛围 。 但说到场面最宏大、参会人数最多、内容最丰富的1024活动 , 还是要来合肥看看这家老牌AI企业的玩法 。
文章图片
10月23日上午 , 2020科大讯飞全球1024开发者节在合肥开幕 。 作为科大讯飞举办的第四届1024开发者节 , 今天的大会比往年来得都早了一些 。
「创业的过程就像是登山 , 我们只有胸怀登顶的梦想 , 一步一个脚印 , 踏踏实实地积累高度 , 最后才能登顶 。 而在其中更加重要的是 , 要和一群志同道合的伙伴共同登顶 , 才能享受一览众山小的喜悦 。 」
在开幕致辞中 , 科大讯飞董事长刘庆峰开篇用一句「因为山就在那里」概括了科大讯飞对创业、对开发者、对合作伙伴的坚定态度 。
文章图片
科大讯飞董事长刘庆峰开幕致辞 。
今年是科大讯飞这家公司成立的第21年 , 也是讯飞开放平台发布的第10年 。 在过去十年里 , 讯飞开放平台的成长轨迹清晰可见:从仅有语音合成和语音识别到今天的334种AI功能 , 从最早不到10万的应用终端数到今天的20亿终端设备 , 从最早的十几个创业团队到现在的超过150万开发者 。
最近一年的成绩单依然亮眼:讯飞开放平台的开发者数量从108万上升到了157万 , 开发应用数从70万增长到93万 , 科大讯飞为开发者所提供的能力 , 从去年的200项提升到了334项 。
刘庆峰表示 , 一个企业的成功 , 绝不是单独成为一个帝国 , 做帝国注定会衰落 。 只有愿意开放出自己的资源和能力 , 形成产业链和生态体系 , 才能够生生不息地发展 。
刘庆峰同时也提出 , 未来的人工智能发展面临着四大机遇:场景驱动、数据支撑、技术驱动、资本助推 。 具体来说 , 这些机遇一方面是利好加速 , 一方面是危机倒逼 。 我国在人工智能场景应用方面具有独特的优势 , 比如教育、医疗等民生领域还存在着迫切的补齐短板的需求;同时疫情推动人们开始思考人工智能打造的全新的服务方式和生产方式;中美科技脱钩让全社会更加关注核心技术的创新;今年以来多家芯片企业的上市 , 也代表着从事源头技术创新的高新技术产业获得了更多的资本机遇 。
四种因素相重叠 , 让人工智能行业迎来了前所未有的发展空间 。 与此同时 , 人工智能进入落地期 , 其生态也正在快速变化:一是移动互联红利到期 , 万物互联红利开启;二是人口红利到期 , 工程师红利开启;三是从为产品赋能 , 转为企业转型升级赋能 。
立足当下 , 但更要思考未来 。 对于科大讯飞来说 , 下一阶段要攻关的技术重点清晰而明确:
算法突破重点方向:小数据、半监督/无监督、个性化
技术赋能数字生态:情感计算、隐私保护
前瞻研究方向:脑机接口、人机耦合
正如刘庆峰所说:「我们希望通过AI赋能 , 让每一个创业者和科学家用更自由的眼光看更远的未来 , 也许那些想法在今天看起来天马行空 , 但未来或许能够改变世界 。 」
「1024计划」4.0正式发布
刚刚过去的整十年 , 是人工智能技术快速发展和规模化应用的十年 。 2020年史无前例的疫情 , 确实给人们的工作和生活带来了相当程度的不确定性 。 在这样的时代 , 人工智能究竟要扮演怎样的角色?
文章图片
科大讯飞高级副总裁、消费者事业群总裁胡国平 。
在今年的大会上 , 科大讯飞高级副总裁、消费者事业群总裁胡国平正式公布了讯飞开放平台联合艾瑞发布的《2020中国人工智能API经济白皮书》 , 研究总共访问了1024位AI开发者和70位企业CTO , 通过洞察API技术历史演变、商业价值与市场规模现状 , 聚焦中国人工智能API经济发展与趋势 。
报告指出 , 2019年中国人工智能开放平台市场规模104亿 , 预计2020年市场规模可达222亿 。 AI开放平台目前处于快速发展阶段 , 未来将继续保持高速增长 。 这份报告主要包括以下观点:
1)疫情加速了企业数字化、智能化转型 , 对AI开放平台形成利好;
2)AI开放平台目前处于快速发展阶段 , 未来仍将保持高速增长;
3)AI开放平台作为连接市场参与者共创价值的桥梁将成为各技术厂商的必争之地;
4)在AI技术浪潮中需要不断的跨界融合创新与各行业、场景融合 , 共同赋能传统产业是必由之路 。
此外 , 在昨天的大会上 , 胡国平宣布「1024计划」迈入4.0时代 。
文章图片
【十年之后,科大讯飞终于「独木成林」】2017年 , 在首届科大讯飞全球1024开发者节 , 「1024计划」正式推出 , 聚焦AI教引、AI生态、AI公益三个方面 , 旨在辅导、赋能开发者 , 关注公益事业 。 本次升级将在往年基础上 , 推出聚焦行业的「先导计划」、赋能线下的「城市计划」和始终坚守初心的「公益计划」 。
「先导计划」面向行业需求更新服务体系 , 以AI生态引领 , 从产品赋能走向行业赋能 , 为生态和应用发展提供更契合的动力;「城市计划」将真正走到线下、赋能线下 , 基于各地产业情况打造专属服务、定制方案;在高校赋能方面 , 科大讯飞将全新打造AI开发者社区、AI实训营等 。
浇灌十年 , 「AI科技树」终于独木成林
借此机会 , 我们也看到了这家深耕语音行业多年的中国企业 , 所取得的最新成绩 。
目前讯飞开放平台上已经拥有334项AI产品及方案 , 链接了230万合作伙伴共建人工智能生态 。 在未来 , 如何持续保持语音合成语音识别技术的领先?如何用核心技术更好地助力价值兑现?
文章图片
科大讯飞AI研究院常务副院长刘聪 。
在科大讯飞AI研究院常务副院长刘聪看来 , AI核心技术的发展和演进 , 与基础算法、技术体系、场景理解三大关键要素息息相关 。
从语音到声音的全场景音频解析
下一个阶段 , 语音识别技术要达到什么境界?刘聪认为需要持续挑战更加复杂的场景 , 需要实现从语音到声音 , 从单纯文字内容识别到音频的全场景解析 。
在现实的语音环境中 , 背景往往是复杂多样的 , 可能会出现游戏声、笑声、掌声、混叠对话等一系列音效影响到语音识别的精度 , 当前的框架一般很难解决此类问题 。
文章图片
全场景音频解析方案 。
在全场景音频解析方案中 , 科大讯飞首先通过多分辨率特征提取的声音检测事件的方案 , 再结合序列训练 , 对一些相似声音进行精细建模 , 实现笑声、音效等非语音的声音及语音内容的分离 。
针对包含语音的有效内容 , 科大讯飞使用基于富信息的语音降噪和分离方案 , 综合利用声音、文本、说话、人等信息;并在有条件的情况之下 , 使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模 。 从效果来看 , 在直播场景等复杂任务 , 识别准确率从60%提到了85% 。
这样的成就也是基于科大讯飞多年来在语音技术上的沉淀 。 今年5月的国际多通道语音分离和识别大赛中 , 科大讯飞联合中科大语音及语言信息处理国家工程实验室在给定说话人边界的多通道语音识别两个参赛任务上夺冠 , 获得三连冠的成绩;在8月的DCASE2020挑战赛中 , 科大讯飞-中科大联合团队在声音事件定位与检测任务中又一次夺冠 。
文章图片
多维度自学习平台
刘聪提到 , 当前语音识别呈现的另外一个趋势 , 是通过自学习更新的方式实现各种层次的个性化能力 。 「个性化能力」既指针对特定用户的常用词汇、口音、方言 , 也指像声学场景领域文本唤醒词等其他的内容 。 针对这样一个问题 , 科大讯飞推出了多维度自学习平台 。
文章图片
针对某些产品 , 该平台可以在端侧直接实现用户无感知的个性化训练;面向开发者的定制需求 , 平台提供了分层次的定制能力 。 不久之后 , 这一平台的功能也将在讯飞开放平台上线 , 开放给所有开发者 。
语音合成的未来是什么?
对应「语音识别」的全场景音频解析 , 刘聪提到 , 在「语音合成」方面 , 也需要实现「从语音到声音的全场景音频合成」 。
文章图片
情感的表达和合成和预测也是当前语音合成领域的重要方向 , 也是业界的研究热点 。 由此 , 科大讯飞对自身的语音合成能力进行了新的拓展 , 基于自然语言理解技术 , 从文本中分析出情感焦点以及角色信息 , 并通过语音呈现 , 进一步结合针对特殊情况打造的背景音乐 , 最终呈现一场全场景的音频合成 。 除了交互场景之外 , 这一方案在小说合成、配音合成等领域也将大有可为 。
第四代OCR识别框架
科大讯飞在图文识别领域 , 总共有4代OCR框架 , 同时也代表着业界算法演进的趋势 。
文章图片
上图中的第四代框架是在今年大会上提出的 , 它可以实现从版面分析到文字识别的端到端模型 , 较好地解决第三代算法中一些文本行检错误问题 , 并且可以解决数理化解答题等复杂问题 。
但OCR的价值不限于此 , 各种场景的文档类材料 , 例如教育试卷、金融票据、卷宗等内容 , 仍然需要一套通用的方法来实现高精度的文档恢复 。 第四代框架结合图卷积神经网络(GCN)等结构化分析技术和基于生成对抗网络(GAN)的图文数据生成技术 , 解决了「通用问题」 。
文章图片
多语种端到端统一建模技术
无论是识别还是合成技术 , 都会面临多语种推广的问题 。 针对多语种相关语言知识积累不足的问题 , 科大讯飞设计了基于相似性的端到端统一建模方案 。 一方面 , 通过多语种统一的表征和混合建模 , 实现跨语种的信息共享 , 充分发挥语种之间的共性及互补性;另一方面 , 通过统一的端到端建模 , 降低对专家知识和数据的依赖 。
文章图片
此外 , 针对领域数据不足的问题 , 科大讯飞利用数据增强训练技术 , 在识别和合成的训练当中打通各种无监督、有监督语音文本数据的闭环 。 这些多语种的能力 , 也将在讯飞开放平台上正式开放给所有开发者 。
文章图片
针对多语种技术 , 科大讯飞将会陆续开放60个语种的语音合成能力 , 69个语种的语音识别能力 , 56个语种的图文识别能力和168个语种间的机器翻译能力 。
文章图片
每年的1024这一天 , 我们都能发现科大讯飞在「开放」这件事上更进一步 , 用自己所有的能力浇灌一棵「AI科技树」 , 去服务百万开发者 。 从原始种子到参天大树 , 每一片枝叶背后都蕴含了大量的付出和努力 。
文章图片
没有一家企业能够脱离大环境的影响而生存 , 好在「独木」已经「成林」 , 并且枝繁叶茂 。 对于科大讯飞来说 , 在新的十年里也许会面临更多的外部挑战 , 但也确实酝酿着更多的希望 。
推荐阅读
- 冰岛|数万次地震之后 冰岛一火山爆发
- 耳念珠菌|陈根:自然环境首次发现超级真菌,跨越十年溯源路
- 颈椎病|骨科大夫揭秘:全国约1.5亿人患颈椎病 如何对颈椎病说不
- 防护林|十年来最强沙尘暴杀回马枪!对抗风沙,三北防护林有哪些能与不能
- 宇航员|宇航员在太空漫步之后发现宇航服有股味道,难道太空中也有味道?
- 羊肉|河北羊肉瘦肉精添加长达十年!瘦肉精羊肉危害大,还能放心吃吗?
- 莲藕和肉这么做,不用1滴油,做好之后比藕盒还香,开胃下饭
- 北京|“京黄失色”!十年最强沙尘暴为何比以往都猛一些?
- 华中科技大学|华科大《Science》子刊:新型铁电体材料取得重要突破!
- 南瓜吃了几十年,第一次如此做,比蛋糕好吃10倍!女儿打100分!