python如何使用HanLP,LTP,jieba中文分词库

【python如何使用HanLP,LTP,jieba中文分词库】上期文章我们分享了NLP 自然语言处理的基础知识 , 本期我们分享几个比较流行的中文分词库 , 且这些中文分词库绝大部分是JAVA程序编写的 , 在linux系统上很容易使用 , 但是在windows环境下 , 如何使用Python来使用这些分词库??

python如何使用HanLP,LTP,jieba中文分词库

文章插图
HanLP
HanLP中文分词包HanLP 是由一系列模型与算法组成的 Java 工具包 , 目标是普及自然语言处理在生产环境中的应用 。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点 。在提供丰富功能的同时 , HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布 , 使用非常方便 , 同时自带一些语料处理工具 , 帮助用户训练自己的语料 。
当然python 环境下 , hanlp名称为pyhanlp , Python下安装直接在cmd命令框中输入pip install pyhanlp 即可 , 软件会自动安装所依赖的其他库 , 安装完成后 , 在cmd命令框中输入hanlp segment ,使用命令hanlp segment进入交互分词模式 , 输入一个句子并回车 , HanLP会输出分词结果 , 前提是你的电脑开发环境已经安装好 。
此时 , 软件会先下载hanlp所需要的语言模型 , 大概1.2G , 由于服务器都是国内的 , 所以下载速度会很快
python如何使用HanLP,LTP,jieba中文分词库

文章插图
模型下载
模型下载完成后 , hanlp会检测电脑系统上面是否有Java环境 , 毕竟HanLP 是由一系列模型与算法组成的 Java 工具包
python如何使用HanLP,LTP,jieba中文分词库

文章插图
Java环境下载
若没有安装Java , 按照软件提示的网站下载安装自己系统的版本即可 。
若一切没有问题 , 便可以输入一段话 , 进行分词操作
python如何使用HanLP,LTP,jieba中文分词库

文章插图
中文分词
依存句法分析 , 命令为hanlp parse , 同样支持交互模式和重定向 , 在cmd命令框中输入指令 , 并输入一段话
python如何使用HanLP,LTP,jieba中文分词库

文章插图
中文分词
pyhanlp的python使用方法
安装pyhanlp后 , 以上我们可以使用在cmd命令框中输入指令进行操作 , 当然我们同样也可以使用python 编程进行操作
分词使用
from pyhanlp import *print(HanLP.segment("我们都是一家人 。"))>>> [我们/rr, 都/d, 是/vshi, 一家人/n,。/w]依存分析使用
from pyhanlp import *print(HanLP.parseDependency("我们都是中国人 。"))>>> 1 我们 我们 r r_ 3 主谓关系 _ _>>> 2 都 都 d d _ 3 状中结构_ _>>> 3 是 是 v v _ 0 核心关系 _ _>>> 4 中国人 中国人 n n _ 3 动宾关系 _ _>>> 5。。? wp w _ 2 标点符号 _ _pyhanlp可视化
pyhanlp提供了一个很好的可视化界面 , 可以直接在官网上进行可视化操作 , 当然在本地 , 只要一句命令就能启动一个web服务
在cmd命令框里 , 直接输入hanlp serve即可 , 然后软件提示8765端口的本地网络地址浏览器输入http://localhost:8765就能看到可视化界面 , 能看到分词结果和依存关系的结果 , 是不是很直观 。这个网页上还有安装说明、源码链接、文档链接、常见的问题 , 国产库果真想的很到位
python如何使用HanLP,LTP,jieba中文分词库

文章插图
可视化界面

python如何使用HanLP,LTP,jieba中文分词库

文章插图
中文分词可视化
jieba中文分词库jieba库是一款优秀的 Python 第三方中文分词库 , jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式
精确模式:试图将语句最精确的切分 , 不存在冗余数据 , 适合做文本分析全模式:将语句中所有可能是词的词语都切分出来 , 速度很快 , 但是存在冗余数据搜索引擎模式:在精确模式的基础上 , 对长词再次进行切分Window环境下 , 在cmd命令框中输入: pip install jieba 进行安装即可


推荐阅读