王海峰|布局和引领 百度CTO王海峰展示语言与知识技术十年硕果

_原题为 布局和引领 百度CTO王海峰展示语言与知识技术十年硕果
AI正在向更深层次进化 , 语言与知识技术的重要性愈加凸显 。 8月25日 , 以“掌握知识、理解语言、拥有智能”为主题的百度大脑语言与知识技术峰会重磅开启 , 百度CTO王海峰发表主旨演讲 , 解读百度语言与知识技术的发展历程与最新成果 , 与产学研各界分享技术及产业发展趋势和展望 , 百度集团副总裁吴甜和百度技术委员会主席吴华分别发布百度语言与知识技术系列产品和数据集共建计划 , 重磅推出5款产品的新发布 , 全面加速AI技术大规模应用 。 在演讲中 , 王海峰表示 , “在百度语言与知识技术的布局和发展中 , 我们始终在注意把握两个趋势 , 即技术发展趋势和产业发展趋势 , 并力争引领趋势 。 ”
王海峰|布局和引领 百度CTO王海峰展示语言与知识技术十年硕果
文章图片

【王海峰|布局和引领 百度CTO王海峰展示语言与知识技术十年硕果】语言与知识技术是人工智能认知能力的核心 , 以语言和知识为研究对象 , 让机器像人一样掌握知识、理解语言的自然语言处理技术 , 对于人工智能发展至关重要 。 十年来 , 百度大脑语言与知识技术成果丰硕 , 获得包括国家科技进步奖在内的20多个奖项 , 30多项国际竞赛冠军 , 发表学术论文超过300篇 , 申请专利2000多项 。 技术不断突破创新的同时 , 也在产品上创新探索 , 同时将领先的技术输出给开发者与合作伙伴 , 提升各行业智能化水平 。
百度引领语言与知识技术创新 , 形成完整技术布局
半个多世纪前 , 老一辈自然语言处理学者 , 在一本名为《机器翻译浅说》的书中 , 畅想了未来跨语言、跨文化的无障碍沟通场景 。 如今 , 机器同传、翻译机、跨模态翻译等工具 , 已融入人们的工作和生活 , 沟通无国界的梦想正逐步实现 。 这一切是人工智能技术 , 特别是语言与知识技术进步所带来的结果 。
历经近十年发展 , 百度已经构建了完整的语言与知识技术布局 , 包括知识图谱、语言理解与生成技术 , 以及上述技术所支持的包含智能搜索、机器翻译、对话系统、智能写作、深度问答等在内的的应用系统 。
王海峰|布局和引领 百度CTO王海峰展示语言与知识技术十年硕果
文章图片

其中 , 知识图谱是机器认知世界的基础 。 机器认知能力的突破 , 越来越依赖对知识和大规模知识图谱的运用 。 百度打造了世界上最大的多源异构知识图谱 , 拥有超过50亿实体和5500亿事实 , 并在不断演进和更新 , 已应用于各行各业 , 每日调用次数超过400亿次 。
王海峰|布局和引领 百度CTO王海峰展示语言与知识技术十年硕果
文章图片

不仅如此 , 针对不同应用场景和知识形态 , 百度还建立起多样化的知识图谱类型 , 既有基础的实体知识图谱 , 也有行业知识图谱、事件图谱、关注点图谱等 , 以及融合语音、视频、图片的多模态知识图谱 。 这背后 , 是百度创建的包括无标签大数据开放知识挖掘技术、知识体系自扩展的知识图谱自学习技术、以及融合多源异构数据的知识补全与整合技术在内一整套知识图谱构建方法 。
在知识的加持下 , 语言理解相关技术的能力不断增强 , 机器也可以逐渐像人一样不断学习、不断进步 。 百度提出知识增强的语义理解框架ERNIE , 在深度学习的基础上融入知识 , 具备人类一样的持续学习能力 , 曾一举登顶全球权威数据集GLUE榜单 , 首次突破90分大关 , 并且超越人类得分 。 而通过融入知识、语义理解、以及增强小样本学习能力 , 机器的阅读理解和对话能力也在迅速增强 。
王海峰|布局和引领 百度CTO王海峰展示语言与知识技术十年硕果
文章图片

当然 , 和人类认知世界的形式类似 , 机器认知世界时 , 也不仅是运用自然语言 , 而往往是对语音、视觉、语音等多模态信息的综合应用 。
为此 , 百度研制了知识增强的跨模态深度语义理解方法 , 通过知识关联跨模态信息 , 运用语言描述不同模态信息的语义 , 进而让机器实现从“看清”到“看懂”、从“听清”到“听懂” , 即图像和语言、语音和语言的一体化理解 。 而融合场景图知识的跨模态语义理解预训练技术 , 则大幅提升了跨模态推理能力 。
王海峰|布局和引领 百度CTO王海峰展示语言与知识技术十年硕果
文章图片

在机器理解自然语言之外 , 要与人进行交互 , 语言生成的任务也必不可少 。 百度基于多流机制的语言生成预训练技术 , 在语言生成的过程中 , 兼顾词、短语等不同粒度的语义信息 , 提升了生成效果 。 而多文档摘要生成 , 则通过图结构语义表示 , 引入篇章结构知识 , 增强长文本语义表示能力的同时 , 解决了跨文档领域关系建模难题 。 结合语言生成技术和其他语言与知识技术 , 百度打造了智能创作平台 , 已被20多家媒体所采用 , 日调用量超过35万次 。


推荐阅读