|十年育林,百度NLP已枝繁叶茂( 二 )


从这次大会中 , 王海峰看到了百度对 AI 技术的重视和谋划 。 他敏锐地判断出 , 如果百度沿着“框计算” 的思路进一步发展 , 就需要更强大的自然语言处理技术的支撑 , 尤其是语言分析、语义理解、知识图谱等方向 。
2010 年 , 进入百度之后 , 王海峰所做的第一件事就是成立了“自然语言处理部” 。
在此之前 , 百度在 NLP 方面的研发工作一直在业务需求下进行 , 并没有构成体系 。 NLP 部门的成立改变了这种 “指哪儿打哪儿” 的局面 , 对原有的工作进行了重新梳理与规划 , 除分词、专名识别、query 需求分析、query 改写等传统方向得到加强外 , 也逐步建设了机器翻译、机器学习、语义理解、智能交互、深度问答、篇章理解等新的技术方向 。
【|十年育林,百度NLP已枝繁叶茂】也是在这一年 , 王海峰敲定了百度在知识图谱技术上的研发投入 , 而当时 , 知识图谱还不是一个热门的研究方向 。
扎实的技术背景和丰富的行业经验赋予了王海峰在 NLP 领域强大的背书能力 。 因此 , 他的加入进一步提升了百度的人才吸引力 , 帮助百度招揽了以吴华博士为代表的一大批技术骨干 。
吴华博士在人工智能领域浸润 20 余年 , 专注于自然语言处理 。 据统计 , 她在机器翻译及自然语言处理领域授权或公开的专利申请有 100 余项 , 发表学术论文 60 余篇 。
随着技术骨干的加入 , 百度开始在 NLP 领域的国际顶会中崭露头角 。 2010 年 , 王海峰、吴华的一篇论文被 ACL 录用 , 百度也成为参加这个国际顶会的首个中国互联网企业 。
在这之后的十年里 , 百度几乎每年都会在 ACL 上展示最新的研究成果 , 成为这一国际大会的重要参与者 。 同时 , 在王海峰等人的不断努力下 , 中国研究者在 ACL 上的影响力不断扩大 , 开始拥有更多的话语权 。
2013 年 , 王海峰出任 ACL 五十年来首位华人主席 。
在王海峰等人的共同推动下 , 2015 年 , ACL 首次在中国举办 , 体现了国际学界对中国自然语言处理研究的重视和认可 。
|十年育林,百度NLP已枝繁叶茂
本文插图

2018 年 , 在第 56 届 ACL 年会开幕式上 , 时任 ACL 主席 Marti Hearst 宣布创建亚太区域分会(AACL)并计划在 2020 年举行首次会议 。 之后每两年举行一次会议 , 会议地点将设置在亚太地区 , 由王海峰担任 AACL 创始主席 。
2020 年 , 百度 11 篇论文被 ACL 收录 , 覆盖了语义表示、情感分析、自动摘要、对话系统、机器翻译、知识推理、AI 辅助临床诊断等诸多热点与前沿研究方向 。 同时 , 百度联合谷歌、Facebook、清华大学等全球顶尖机构共同举办了首届同声传译研讨会 , 就 ERNIE 核心技术、开放域人机对话技术、智慧医疗、生物医药等业内关注的话题做了演讲 , 展现了中国企业在 NLP 及 AI 领域的技术创新与产业实践 。
如果将十年前的百度 NLP 比喻成一片苗圃 , 那么 , 经过十年的浇灌 , 这片苗圃已然成林 。 王海峰等人的贡献在于 , 他们很早就选到了优质的树苗并悉心培育 。
从今年百度被 ACL 接收的论文以及最近公布的研究进展中 , 我们可以看到这种前瞻视野和布局带来的丰硕成果 。
从 ACL、百度看 NLP 十年研究趋势
如果仔细观察近几年的 ACL 接收论文和百度公布的研究成果 , 我们不难发现 NLP 领域的几个研究趋势 , 包括 1)越来越多的研究者将知识融入到 NLP 模型中 , 以提高模型的理解和推理能力;2)多模态语义理解越来越受关注 , 同时在视频网站、电商物流、自动驾驶等领域得到广泛应用……
将知识融入 NLP 模型
语言和知识促进了人类文明的发展 。 人们从大量的数据和信息中获取知识 , 语言是凝炼和传承知识的载体 , 进而又将知识应用于生产生活的方方面面 。 早在十年前 , 王海峰就敏锐地觉察到知识的重要性 , 开始布局知识图谱技术并逐渐加大研发投入 。 百度将多源异构的海量互联网信息汇聚在一起 , 从中挖掘知识、构建大规模图谱 。 而当时 , 知识图谱对于大多数人来说还比较陌生 。


推荐阅读