|十年育林,百度NLP已枝繁叶茂


机器之心原创
作者:张倩
种一棵树 , 最好的时间是十年前 , 其次是现在 。 ——Dambisa Moyo
|十年育林,百度NLP已枝繁叶茂
本文插图

7 月 10 日 , 自然语言处理顶会 ACL 2020 落下帷幕 。 本次大会共收到 3429 篇论文投稿 , 其中 779 篇被接收 , 接收率为 22.7% , 与去年持平 , 低于近年来大部分年份的接收率 。
在这 779 篇论文中 , 有 185 篇来自中国大陆 , 占被接收论文总数的 23.7% , 仅次于美国 。 此外 , 今年的最佳论文二作和最佳 demo 论文一作均为华人学生 。
然而 , 很多人可能不知道 , 2000 年 ACL 年会在中国香港举办时 , 只有微软中国研究院的论文来自中国大陆;到了 2005 年 , 来自大陆的论文也只有三篇 。
很多变化是过去十几年发生的 , 尤其是过去的十年 。 在这十年里 , 中国的 NLP 学界在 ACL 年会中的投稿数、被接收论文数逐年上升 , 同时 , 中国的 NLP 学者也实现了多个 “第一次” 的突破:
2013 年 , 王海峰出任 ACL 五十年来首位华人主席;
2014 年 , 吴华出任 ACL 程序委员会主席 , 成为中国企业首位 ACL 程序委员会主席;
2015 年 , ACL 年会首次在中国举办;大会上 , 哈工大教育部语言语音重点实验室主任李生教授获得 ACL 终身成就奖 , 成为首个获得该奖项的华人;
2016 年 , 赵世奇当选 ACL 秘书长 , 成为首位当选该职位的亚洲人;
2018 年 , ACL 宣布创建亚太区域分会(AACL)并计划在 2020 年举行首次会议 , 由王海峰担任创始主席;
2020 年 , 百度领衔组织了 ACL 大会上首场同声传译研讨会(The 1st Workshop on Automatic Simultaneous Translation);
……
从这些突破中 , 我们可以看到中国科学家的快速成长 , 看到中国 NLP 学界在国际上不断扩大的影响力 , 看到百度这家中国互联网公司跻身世界科技巨头的努力 。
为什么一家中国互联网公司能够吸引众多 NLP 领域的科学家 , 能够成为国际 NLP 顶会的重要参与者?我们也许可以从百度早期的战略布局中找到线索 。
早在十年前 , 百度就已经在 ACL 大会上留下了中国互联网企业的身影 。 彼时 , 第三次人工智能浪潮还没有掀起太多波澜 , 李世石和 AlphaGo 的里程碑式对弈还有六年才会发生 。
今年正值百度 NLP 的第十个年头 , 我们回顾一下过去十年的路程 , 看看以百度为代表的中国企业如何凭借对整个领域的洞察在 NLP 领先布局、持续投入前沿技术研究及产业实践 , 这对于当下提升科技竞争力以及如何在行业发展早期做好战略布局仍具有借鉴意义 。
百度与 ACL 的十年交集
2010 年 , 百度进入创建之后的第二个十年 , 中国互联网也进入了高速发展期 。
当时 , 百度已经积累了大量的数据和用户群体 , 有着丰富的应用场景可以挖掘 。 对于需要大量真实数据并希望自己的成果服务广大用户的研究者来说 , 百度的这些特质有着强大的吸引力 。 于是 , 在这一年 , 百度迎来了 NLP 领域知名科学家——王海峰博士 。
|十年育林,百度NLP已枝繁叶茂
本文插图
王海峰本硕博都毕业于哈工大 , 早在博士期间就做过将神经网络引入机器翻译的研究 。 进入百度之前 , 他曾先后就职于微软中国研究院、东芝等 , 并与 ACL 结缘 , 2004 年开始在 ACL 上发表论文 , 2006 年曾有 5 篇论文被收录 。
除了海量的数据、丰富的应用场景之外 , 真正让王海峰下定决心加盟百度的契机其实是 2009 年 8 月的“百度世界大会” 。
与以往三届不同 , 2009 年百度世界大会给人的感觉是格外具有技术味道 。 李彦宏在这届大会上推出了全新计算平台 “框计算”——用户只要在”百度框”中输入服务需求 , 系统就能明确识别这种需求 , 并将该需求分配给最优的内容资源或应用提供商处理 , 最终精准高效地返回给用户相匹配的结果 。


推荐阅读