机器之心|使用AmazonSageMaker运行中文命名实体识别
一、背景
利用业内数据构建知识图谱是很多客户正在面临的问题 , 其中中文命名实体识别(Named Entity Recognition , 简称NER)是构建知识图谱的一个重要环节 。 我们在与客户的交流中发现 , 现有的NER工具(比如Jiagu)对于特定领域的中文命名实体识别效果难以满足业务需求 , 而且这些工具很难使用自定义数据集训练 。 因此客户迫切想使用业内最先进的算法在行业内数据集上进行训练 , 以改进现有NER工具的不足 。 本文将介绍如何使用Amazon SageMaker运行基于TensorFlow的中文命名实体识别 。
命名实体识别 , 是指识别文本中具有特定意义的实体 , 主要包括人名、地名、机构名、专有名词等 。 命名实体识别是信息提取、问答系统、句法分析、机器翻译、知识图谱等应用领域的重要基础工具 。
英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写) , 所以实体边界识别相对容易 , 任务的重点是确定实体的类别 。 和英语相比 , 中文命名实体识别任务更加复杂 , 而且相对于实体类别标注子任务 , 实体边界的识别更加困难 。
二、中文命名实体识别算法
NER一直是自然语言处理(NLP)领域中的研究热点 , 从早期基于词典和规则的方法 , 到传统机器学习的方法 , 到近年来基于深度学习的方法 , NER研究进展的大概趋势大致如下图所示 。
本文插图
早期的命名实体识别方法基本都是基于规则的 。 之后由于基于大规模的语料库的统计方法在自然语言处理各个方面取得不错的效果之后 , 一大批机器学习的方法也出现在命名实体类识别任务 。
值得一提的是 , 由于深度学习在自然语言的广泛应用 , 基于深度学习的命名实体识别方法也展现出不错的效果 , 此类方法基本还是把命名实体识别当做序列标注任务来做 , 比较经典的方法是LSTM+CRF、BiLSTM+CRF 。
我们知道 , 预训练模型可以大幅提升计算机视觉的深度学习算法表现 , 而在NLP领域也是同理 , 预训练语言模型可以有效提升文本分类、机器翻译、命名实体识别等任务的效果 。 预训练语言模型经历了从词嵌入(Word Embedding) , 到BERT , 再到ALBERT的演进 。
BERT的全称是Bidirectional Encoder Representation from Transformers , 即双向Transformer的编码器(Encoder) , 因为解码器(Decoder)是不能获得要预测的信息的 。 模型的主要创新点都在预训练方法上 , 即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的表示 。
ALBERT(见参考资料4)基于BERT , 但有一些改进 , 它可以在主要基准测试上获得最先进的性能 , 而参数却减少了30% 。 比如 , 对于albert_base_zh , 它只有原始BERT模型的10%的参数 , 但是保留了主要精度 。
本文将使用预训练语言模型ALBERT做中文命名实体识别 , 该项目基于开源的代码修改而来(本文代码见参考资料1 , 原始代码见参考资料2) , 使用TensorFlow框架开发 , 在下一节 , 我们将展示如何在Amazon SageMaker中进行该模型的训练 。
三、在Amazon SageMaker中运行TensorFlow
本节将介绍如何使用Amazon SageMaker的自定义容器 (Bring Your Own Container , 简称BYOC)和自定义脚本(Bring Your Own Script , 简称BYOS)两种方式来运行TensorFlow程序的训练任务 。 首先我们来看下如何在Amazon SageMaker Notebook上运行这个项目 , 然后再把它运行在Amazon SageMaker上 。
1. 在Amazon SageMaker Notebook上运行TensorFlow开源代码
我们首先要创建Amazon SageMaker Notebook , 然后下载代码和数据 , 最后运行代码 。 如果一切运行正常 , 我们就可以进行下一步工作——将该TensorFlow代码运行到Amazon SageMaker中了 。
推荐阅读
- OPPO手机|iPhone明年才使用LTOP屏幕,屏幕今年还得看绿厂!
- 手机使用技巧|宝宝照片太多怎么办?4种不占手机内存的存储方式,最后一种更安全
- |使用TLC闪存的英睿达P5系列NVMe M.2 SSD现已公布售价
- 技术编程|机器学习又一重要医学应用!培植人造器官
- 机械|电脑的机械硬盘和固态硬盘什么区别,谁使用寿命长?
- 科技造就未来|Apple为什么要使用ARM?为什么不从头开始?
- 智能机器人|【好莱坞首次用AI机器人主演】
- 电脑使用技巧|Word文字技巧—如何将Excel转换成Word
- windows系统,电脑使用技巧|第三方 Fluent Design 图标设计集预示未来 Win 10 风格
- 华为手机,AI人工智能|今天才知道,华为手机右上角还能这样使用,几千块钱果真没白花