NLTK下英文分词,怎样建立自定义字典

用正则表达式预处理一下,比如替换成 RSA_100xx

■网友
使用MWETokenizer可以自定义词语
【NLTK下英文分词,怎样建立自定义字典】 \u0026gt;\u0026gt;\u0026gt; import nltk
\u0026gt;\u0026gt;\u0026gt; from nltk.tokenize import MWETokenizer
\u0026gt;\u0026gt;\u0026gt; test = \u0026#39;In a little or a little bit or a lot in spite of\u0026#39;
\u0026gt;\u0026gt;\u0026gt; nltk.word_tokenize(test)

\u0026gt;\u0026gt;\u0026gt; tokenizer = MWETokenizer(, separator = \u0026#39;_\u0026#39;)
\u0026gt;\u0026gt;\u0026gt; tokenizer.add_mwe((\u0026#39;in\u0026#39;, \u0026#39;spite\u0026#39;, \u0026#39;of\u0026#39;))
\u0026gt;\u0026gt;\u0026gt; tokenizer.tokenize(nltk.word_tokenize(test))

参考文档
nltk.tokenize package

■网友
大佬, 这个问题, 你解决了吗~

■网友
知道词汇的话,比如“RSA 100xx”直接加到NLTK词典;
不知道的话,这个就复杂了,请Google新词发现


    推荐阅读