NLP中的文本分析和特征工程 _NLP

语言检测，文本清理，长度测量，情绪分析，命名实体识别，n字频率，词向量，主题建模
前言在本文中，我将使用NLP和Python解释如何分析文本数据并为机器学习模型提取特征。

文章插图
【NLP中的文本分析和特征工程】
NLP(自然语言处理)是人工智能的一个领域，研究计算机和人类语言之间的交互，特别是如何编程计算机来处理和分析大量的自然语言数据。NLP经常被应用于文本数据的分类。文本分类是根据文本数据的内容给文本数据分配类别的问题。文本分类最重要的部分是特征工程:从原始文本数据为机器学习模型创建特征的过程。
在本文中，我将解释分析文本和提取可用于构建分类模型的特征的不同方法。我将展示一些有用的Python代码，它们可以很容易地应用于其他类似的情况(只是复制、粘贴、运行)，并带注释遍历每一行代码，以便复制这个示例(链接到下面的完整代码) 。
我将使用“新闻类别数据集”(链接如下)，在该数据集中，你将获得从《赫芬顿邮报》获得的2012年至2018年的新闻标题，并要求你按照正确的类别对它们进行分类。
https://www.kaggle.com/rmisra/news-category-dataset
具体来说，主要讲的是:
• 环境设置:导入包并读取数据。
• 语言检测:了解数据属于哪种自然语言。
• 文本预处理:文本清洗和转换。
• 长度分析:用不同的度量方法测量。
• 情绪分析:确定文本是积极的还是消极的。
• 命名实体识别:带有预定义类别(如人名、组织、位置)的标记文本。
• 词频:找出最重要的n字。
• 字向量:把字转换成数字。
• 主题建模:从语料库中提取主要主题。
环境设置首先，我需要导入以下库。

## for dataimport pandas as pd import collections import json## for plotting import matplotlib.pyplot as plt import seaborn as sns import wordcloud## for text processing import re import nltk## for language detection import langdetect ## for sentiment from textblob import TextBlob## for ner import spacy## for vectorizer from sklearn import feature_extraction, manifold## for word embedding import gensim.downloader as gensim_api## for topic modeling import gensim

数据集包含在一个json文件中，因此我将首先将其读入一个带有json包的字典列表，然后将其转换为一个pandas Dataframe 。

lst_dics = []with open('data.json', mode='r', errors='ignore') as json_file:     for dic in json_file:         lst_dics.Append( json.loads(dic) )## print the first one       lst_dics[0]

文章插图

原始数据集包含30多个类别，但出于本教程的目的，我将使用其中3个类别的子集:娱乐、政治和技术。

## create dtfdtf = pd.DataFrame(lst_dics)## filter categories dtf = dtf[ dtf["category"].isin(['ENTERTAINMENT','POLITICS','TECH']) ][["category","headline"]]## rename columns dtf = dtf.rename(columns={"category":"y", "headline":"text"})## print 5 random rows dtf.sample(5)

文章插图

为了理解数据集的组成，我将通过用条形图显示标签频率来研究单变量分布(一个变量的概率分布) 。

x = "y"fig, ax = plt.subplots()fig.suptitle(x, fontsize=12) dtf[x].reset_index().groupby(x).count().sort_values(by=         "index").plot(kind="barh", legend=False,          ax=ax).grid(axis='x') plt.show()