自然语言处理在开放搜索中的应用( 二 ) 简介：构建搜索引擎的时候

结合源领域分词模型和目标领域的词典，我们基于远程监督技术可以快速构建一个目标领域分词器；

文章插图
（上图为自动跨领域分词框架）用户只需要提供给我们一些自己业务的语料数据，我们就可以自动的得到一个定制化的分词模型，这不仅大大提升了效率，同时也更快满足客户的需求。通过这个技术，我们可以在各个领域获得比开源通用分词，更好的效果

文章插图
命名实体识别命名实体识别（NER），例如从query中提取人名地名时间等。挑战与困难NER在NLP领域研究非常多同时也面临很多的挑战，尤其在中文上由于缺乏天然分隔符，面临边界歧义、语义歧义、嵌套歧义等困难。 **解决思路**? 下图右上角是我们在开放搜索中使用的模型架构图；? 在开放搜索中，很多用户都积累了大量词典实体库。为了充分利用这些词典，我们提出了一种在bert之上，有机融合知识的graphNer框架。从右下角的表格可以看出，在中文上能取得最好的效果；

文章插图
拼写纠错开放搜索分为4个纠错步骤包含了挖掘、训练、评估和在线预测。主要的模型根据统计翻译模型和神经网络翻译模型两套系统，同时在性能、展示样式和干预上有一套完备方法。

文章插图
语义匹配深度语言模型的出现给很多NLP任务带来了跨越式的提升，尤其是在语义匹配等任务上。达摩院在bert上也提出了很多创新，提出了自研的StructBert 。主要创新点在于在深度语言模型训练中，增加了字序/词序的目标函数和更多样的句子结构预测目标函数，进行多任务学习。但是这样的通用的structbert是无法试用给开放搜索里成千上万个客户，成千上万个领域的。我们需要做领域适配。所以我们提出了语义匹配3阶段范式。可以快速的为客户定制适合于自己业务的语义匹配模型。