科技小辛辛|30年,《AI已来:让中国AI走向世界的王海峰》独特视角讲述中国AI( 二 )


1993年 , 在王海峰进入李生教授的实验室时 , CEMT系统已经进化到第三代 , 也早已投入实际应用获得了不少好评 。
李生教授交给王海峰的任务 , 是对CEMT-III进行优化 。 也就是说 , 虽然当时在很多人眼中NLP还是遥不可及的镜花水月 , 但王海峰所接触的第一个项目 , 就是完全属于应用性质、真刀真枪直面用户的 。
这一点对于王海峰后来的学术研究 , 包括后来在百度工作 , 无形中都有着莫大的影响 。
在李生教授的认可之下 , 王海峰开始以CEMT-III为契机推开NLP宝库的大门 , 虽然这一领域在当时远不及今天热闹 , 甚至不被很多人看好 。
王海峰参与的另一项任务 , 是汉英双向机器翻译 , 又称BT863 , 是当时“863计划”之一的项目 。
当时正在读研究生的王海峰 , 在BT863的汉译英方向做规则知识库的建构 , 以及计算机软件等方面的准备 。
虽然当时实验室一年的经费只有十几万元 , 一间二十几平方米的房间密布着几台电脑 , 但在当时已经属于条件优异了 。
王海峰也深知这种条件得来不易 , 几乎扎根在实验室里 , 和师兄弟以及导师一起为BT863忙得日夜颠倒 。
科技小辛辛|30年,《AI已来:让中国AI走向世界的王海峰》独特视角讲述中国AI
文章图片
△1995年硕士期间 , 王海峰在哈工大实验室留影
1995年 , 到了BT863进行最终测评的时候 , 王海峰取下了装着整个系统的硬盘 , 小心翼翼地用纸包好 , 和同学、导师们一起坐上了前往北京的列车 。
在测试过程中 , 哈工大的BT863在汉译英部分获得了全国第一 。 当时是在一分钟左右完成了对200句话的翻译 。
在今天来看 , 这种速度几乎不值一提 , 更何况整个程序还要装在一块沉甸甸的硬盘里 。 但在当时 , 这一成绩给了王海峰和其他哈工大人很大的鼓舞 。
以至于准备硕士论文期间 , 王海峰也选择了面向实例、基于模式的机器翻译作为课题 , 那时这一课题从国内学术进度来说还相对前卫 。 王海峰的研究 , 从一定程度上讲是在填补空白 。
神经网络+机器翻译的“首次中国之行”
1996年 , 王海峰开始在哈工大攻读博士 , 由李生教授和时任哈工大校长助理的高文(现为中国工程院院士)共同培养 。
而在此期间 , 他开始思考——自己能否去尝试一些更新的东西 。
同年 , 高文就任于国家智能计算机研究中心 , 与摩托罗拉共同设立的先进人机通信技术联合实验室(JDL) , 王海峰作为博士生也一起来到了北京 。
JDL这种携手外企巨头 , 横跨国家、连通校企的合作模式 , 在当时是十分罕有的 , 也从另外一种更独特的角度开拓了他的国际视野 。
同时也是从那时开始 , 摩托罗拉和科研机构的产学联合模式 , 让王海峰第一次和产业界的真实需求有了亲密接触 。
这种学术和产业的综合视角 , 一直影响着王海峰本人 , 并且由他将这种影响带到企业和很多学术组织中去 。
当时 , 王海峰发现在海外(例如CMU) , 已经开始有人将神经网络应用到语音处理之中 。
不过当时应用更广的是多层的BP神经网络 , 但其致命缺点 , 就是不能对上下文进行有效建模 。
就此王海峰便在机器翻译上开始了创新之旅 , 他的创新举措在于 , 将循环神经网络的方法引入了机器翻译领域 , 提出了在BP网络基础上增加一个循环层链接 , 形成循环神经网络(RNN) , 来反映上下文关系 , 取得了很好的效果 。
那个年代 , 这个想法在国际上也属超前 。
科技小辛辛|30年,《AI已来:让中国AI走向世界的王海峰》独特视角讲述中国AI
文章图片
△1999年3月 , 博士学位论文答辩会 , 与导师李生老师、答辩委员会老师合影
博士期间 , 王海峰根据对循环神经网络的应用 , 发表了《基于神经网络的汉语口语言语行为分析》、《基于神经网络的汉语口语多义选择》等数篇论文 。


推荐阅读