知识|观潮百度NLP十年:语言知识全布局,5款产品新发布、2大计划( 二 )
人认知世界的时候不仅仅是用自然语言 , 往往是多模态的语音、视觉、语言 , 各种信号都会有输入 。 因此 , 百度 NLP 的研究也从自然语言扩展到跨模态的语义理解 。 突破跨模态语义理解技术面临两大难题:一是不同模态的信息相互独立 , 彼此缺乏关联;二是不同模态的信息异构 , 语义空间难以融合 。
针对这些难题 , 百度 NLP 提出了知识增强的跨模态深度语义理解方法 , 一是从多源异构大数据中构建大规模知识图谱 , 作为关联跨模态信息的桥梁;二是语言可以描述不同模态信息的语义 , 通过知识增强的自然语言语义表示方法 , 解决不同模态语义空间的融合表示难题 , 从而突破跨模态语义理解的技术瓶颈 。
这些技术突破为人们接触最多的百度搜索引擎带来了很多变化 。 「传统的搜索引擎通过关键词进行简单的需求理解 , 其核心是排序 。 而近年来 , 百度搜索已经完全进化成了智能搜索引擎 。 」王海峰说道 。
现在 , 你的输入不仅可以是一个词、一句话 , 也可以是语音、图片 。 这涉及到语言理解和跨模态理解 , 还需要将互联网上大量的内容与其连接起来 , 而搜索结果的排序现在也是基于深度学习和语义表示融合的方法 。
在结果的呈现上 , 很多时候搜索引擎给出的答案图文并茂 , 这背后则是知识图谱技术的支撑 。
语义理解之外 , 最近 NLP 领域发展较快的方向是语言生成 。 基于预训练模型等技术 , 百度提出了基于多流机制的语言生成预训练方法 , 兼顾词、短语等不同粒度的语义信息 , 显著提升了生成效果 。 百度也探索了多文档摘要生成 , 通过图结构语义表示 , 引入篇章知识 , 新的模型解决了跨文档领域关系建模难题 。 在单文档和多文档摘要上 , 都取得了很大的效果提升 。
文章图片
从内到外的 AI 技术渗透
有了知识、语言理解和生成 , 我们就可以实现自然的人机对话 。 在基于知识的对话框架下 , 基于知识 , 理解对话意图 , 规划对话路径 。 同时 , 基于用户的反馈 , 机器可以学习和积累知识 , 不断提高对话的体验和效率;百度提出了知识图谱驱动的对话控制技术 , 利用知识图谱提供的语义内容和关联信息 , 帮助对话系统自动规划话题路径 , 知识之间的关联使得话题可以自然切换 , 显著提高对话流畅度和逻辑性 。
在对话生成方面 , 百度研发了首个基于隐空间的大规模开放域对话模型 , 借助隐空间建模不同的对话回复方式 , 在对话合理性、内容丰富度、吸引力等方面效果突出 , 中英文效果上都超越了业内最佳的模型和系统 。
「在基于知识的对话框架里 , 我们实现了在线交互学习 , 通过主动向用户发起交互 , 机器可以利用用户的反馈学习新知识 , 持续优化对话效果 , 」王海峰说 , 「整合上述技术 , 我们研制了智能对话定制与服务平台 , 可以帮助开发者高效构建智能对话系统 , 实现规模化应用 。 」
人工智能和 NLP 的经典难题——翻译问题 , 百度也在不断打磨 。
百度自 2010 年开始研发大规模互联网机器翻译 , 在大规模翻译知识获取、翻译模型、多语言翻译、同声传译等方面创新突破 , 研发了领先的互联网翻译系统 , 率先上线互联网神经网络机器翻译 , 实现了机器翻译的大规模产业化应用 。 在机器翻译技术方面 , 百度提出了多智能体联合学习等多项创新技术 , 效果领先 , 并在国际评测中获得第一 。
AI 同声传译方面 , 百度首次提出了基于语义单元的同传模型 , 结合全局话题及上下文信息进行翻译 , 实现了高质量低延时的同声传译系统 , 达到了与人类翻译相当的水平 。 针对很多语种数据稀缺的问题 , 百度提出了稀缺语种分组混合训练算法和多语言联合编码框架 , 实现了 200 多种语言之间的翻译 。 截至目前 , 百度的翻译系统已支持 200 多种语言 , 每天响应超过千亿字符的翻译请求 , 支持超过 40 多万家第三方应用 。
「复杂知识表示和快速构建技术 , 知识与深度学习进一步的融合 , 融合感知与认知的跨模态语义理解技术 , 模型可解释性和鲁棒性等方面 , 仍有很多技术难题需要研究和解决 , 」王海峰表示 。 「但我们对未来充满信心 , 百度会继续探索让机器掌握知识、理解语言、拥有智能的能力 。 」
5 款产品新发布、2 大计划
除了这些技术的总结和展望之外 , 在这次活动中 , 百度还一口气发布了文心、TextMind、AI 同传会议解决方案 3 款新产品 , 智能创作平台面向媒体的 3 个场景方案 , 智能对话定制与服务平台 UNIT 的 3 项全新升级以及数据共建和算力共享计划 。
文章图片
语义理解技术与平台「文心」
首先是 NLP 的核心语义理解 。 目前使用机器做文本处理的需求广泛存在 , 通用算法 API 已无法满足一些场景 , 而传统深度学习处理特定任务的方法则需要专业人员花费大量时间打造 。 文心基于深度学习平台飞桨打造 , 其目标是帮助企业开发者更低成本、更方便地将最新的语义理解技术应用于自己的场景 。
推荐阅读
- 知识百科|《送你一朵小红花》定档,我看出了易烊千玺的事业心
- 科学知识|「图片新闻」兰州市欣欣嘉园社区和倍豪智创科技中心联合开展“探索七彩世界·普及科学知识”实践活动
- 大呼长|半岛亲子游首发活动“有味道”的旅行 小朋友们大呼长知识
- 知识科普|幸芙手机消毒舱:手机专用黑科技消毒设备,快给你手机消个毒
- 审判庭|青岛知识产权法庭日照巡回审判庭揭牌成立
- 同比|百度Apollo或将在广州同时落地Robotaxi、Robobus ;中国电影上半年净利亏损5.02亿元;微信内测“群
- [中国经营报]百度网盘:布局个人“云时代”中国经营报2020-08-29 06:46:310阅
- 基础知识|ui设计的基础知识,有哪些是你不了解的?
- 系方式|贴吧自动发帖顶贴软件
- 通江县|四川通江县:107名校长接受食品安全知识检测