独自快乐|Lattice LSTM,中文命名实体识别算法
中文命名实体识别(NER)算法按照输入的类型 , 可以大致分为Character-based(字符)和Word-based(单词)两种 。 这两种方法都存在一些缺陷 , Character-based不能利用词汇和词汇序列信息;Word-based需要分词 , 分词的错误会对NER结果产生较大影响 。 因此新加坡的研究者在2018年提出了一种LatticeLSTM的算法 , 可以利用词汇信息 , 也可以避免分词错误对模型的影响 。
1.前言
基于字符的方法不能利用词汇和词汇序列的信息 , 而这些信息对于实体识别通常很重要 。 基于单词的方法需要经过分词模型和NER模型 , 分词中产生的错误会传递到NER模型中 。 这种分词边界的错误会导致NER模型出错 , 这种情况在开放领域的NER任务中尤其严重 。基于上面的原因 , 新加坡的研究人员于2018年提出了LatticeLSTM模型 , 论文《ChineseNERUsingLatticeLSTM》 。 LatticeLSTM会利用词典匹配句子中的单词 , 然后构造出字符和单词的网格(Lattice) 。 LatticeLSTM的神经元会同时接收字符和单词的信息 , 自动选择合适的字符或单词 , 实现消除歧义的功能 , 如下图所示 。
LatticeLSTM用到的一些数学符号如下图所示:
推荐阅读
- 独自快乐|看完这个你就知道了,为什么别人的电信网速更快呢
- vivo x50 pro+|120Hz高刷和长效续航vivo X50 Pro+全都有,快乐不停歇
- 独自快乐|一起约歌是最浪漫的告白,备上小鸟特别版无线耳机
- 科技零接触|X50 Pro+全都有,快乐不停歇,120Hz高刷和长效续航vivo
- 独自快乐|个性很特别,微信昵称可以加边框了
- 独自快乐|富士康等台湾企业去墨西哥设厂,为美国打造新的供应链
- 独自快乐|华为专卖店竟多达14家,小米无一家!,贵州这条街
- 独自快乐|嵌入式软件开发助手(1),Python实用案例编程入门:第二十章
- 独自快乐|共享汽车行业该何去何从?,疫情过后
- 用智能引领快乐走进新的领域|常遇春大发雷霆,朱元璋却暗暗点头,徐达故意放元顺帝逃走