|北语信息院院长荀恩东:语言智能的核心是语义理解丨CCF-GAIR 2020( 二 )
目前语言智能在多个领域有应用 , 主要是四种类型:分类、生成、抽取和校对 。
本文插图
分类问题:也就是给语言对象打标签 , 语言对象可以是句子、篇章、文档集 , 标签可以是二值、多值标签 , 在不同领域有不同的含义 。
本文插图
生成问题:给定原文本生成另一种文本表达 , 典型的应用是机器翻译 , 给定原语言生成目标语言 , 以及人机对话、自动写作等等 。
本文插图
抽取问题:从研究对象提取想要的答案 , 有两种情况 。 1、从原文里直接摘取答案 , 比如信息检索和机器问答 。 2、从原文摘取内容并经过加工和处理 , 以满足某种需求 , 属于挖掘类问题 。 比如说给定文档数据集 , 以生成知识图谱 , 知识图谱来源于大数据 , 但是 , 知识图谱是经过了再加工和再处理 , 用来满足某种需求 。 还有文本摘要问题 , 也是一样 。
本文插图
校对问题:让计算机对给定的处理对象 , 回答对应信息是否齐全、是否一致、是否准确的问题 。 这个问题有多个场景应用 , 比如合同审查、公文审查、稿件校对、知识图谱补全等等 。 在合同审查时 , 起草合同一定有必添的事项 , 比如甲方、乙方、金额、引用的法律条款等等 。 这些信息是否存在不一致 , 是否存在缺失 , 是否存在引用不准确 , 都是审查的对象 。
本文插图
知识图谱里有一个很重要任务就是知识图谱补全 。 从文档集生成知识图谱 , 难免存在数据稀疏的问题 , 使得构造的图谱信息不够完备 , 必须通过其他的信息源补全缺失信息 。
2 语言理解是语言智能的主要任务
语言理解是语言智能的主要任务 , 涉及到语言理解的目标、途径和主要模型 。 计算机对语言的理解是指什么?实际上 , 在处理语言时 , 所谓的理解就是确定了概念与语言单元的映射 , 以及知道承载概念单元的语言属性 , 和知晓不同语言单元之间的关系 。
本文插图
语言单元在不同的场景里有不同的表现 , 有的可能是词和词之间的关系 , 有的可能是句子和句子之间的关系 , 或者是段落和段落之间的关系等等 。 那么我们如何确定表达概念的语言单元、单元属性和单元之间的关系呢?
举两个例子 , 第一个例子给一个句子 , 然后给出语义 , 生成意合图 。 比如“警方严厉打击经济犯罪” , 这句话涉及两个类别的概念:一是事件类概念 , 二是实体类概念 。
如下图所示 , 圆角矩形是事件 , 方角矩形就是实体 。 “打击”和“严厉”是事件 , 警方和犯罪是实体 , 这就把实体之间的关系构造出来了 。 在“打击”和“严厉”下面还有属性 , 有命题信息和情态信息 。
本文插图
第二个例子是一个知识图谱 , 如上图所示 , 其中有四个对象 , 我们要构建四个对象之间的关系 。 张三和李四是同学关系 , 张三毕业于北语 , 李四毕业于矿大 , 北语和矿大是邻居关系 。
此外还有属性 , 属性可以作用在单元上 , 也可以作用在关系上 。 在单元上 , 张三的属性是男、年龄28岁 。 属性也可以作用在边上 , 比如张三和李四之间的同学关系的属性 , 是高中 , 所以他们是高中同学关系 。 关系的属性 , 以及控制关系的条件 , 是知识图谱中非常重要的内容 。
推荐阅读
- 马斯克|马斯克用活猪演示脑机接口技术:实时读取猪脑信息 心灵感应成真了
- 信息检索站资讯号|骁龙865再降400,8+128G至两千档,65W快充加持
- 新机发布|iPhone 12电池入网信息曝光,打败苹果的或许是苹果自己
- 行业互联网,5G|2020中国高速公路信息化展会焦点来了
- 中年|中国电科发起成立新一代信息基础设施生态联盟
- 行业互联网|德州市人民政府与山东数据交易公司、乾云信息科技集团战略合作签约
- 人工智能|从制造业信息化谈包装:包装“智造化”离我们还有多远
- 用户|专注碎片化信息聚合,一知app收获用户口碑好评
- 行业互联网|同盾&华为联合亮相中国高速公路信息化大会
- 行业互联网|拓维信息携手华为助力智慧高速发展加速转型