|6种数据分析实用方法,终于有人讲明白了( 二 )

02 预测和时间序列
在讨论支持分析的方法时 , 预测和时间序列往往被一起提及 , 并不是因为它们是同一种方法 , 而是因为它们都针对同一类问题 , 即基于历史信息对时间序列数据进行特征提炼和预测 。
预测和时间序列分析是指对时间序列数据进行分析、从数据中提炼有意义特征的方法 。 很多时候 , 预测被描述为通过历史数据对趋势进行判断 , 并通过可视化手段进行直观展现的方法 , 有些还提供了关于未来的预测 。
而时间序列分析不同于预测 , 虽然你需要时间序列数据来进行预测 , 但并非所有的时间序列分析都是用来进行预测的 。 例如 , 时间序列分析可用于在多个时间序列中发现模式或相似的特征 , 或执行统计过程控制 。 类似地 , 季节性的分析也可以用来识别模式 。
时间序列分析采用了多种方法 , 既有定量的 , 也有定性的 。 时间序列分析的目的是在历史数据(或时间序列数据)中找出一种模式 , 然后推测未来趋势 。 通常有四大类时间序列分析方法 , 如图1-5所示 。
|6种数据分析实用方法,终于有人讲明白了
本文插图

▲图1-5 预测和时间序列分析的方法
一般而言 , 定量方法是最常见的预测方法 。 但是 , 当无法获得定量的历史数据时 , 或者广泛存在不确定性时 , 使用定性分析和决策分析方法也很普遍 。
03 自然语言处理
自然语言处理(Natural Language Process , NLP)是指通过计算机来理解和生成“自然语言”的方法 。
当前 , NLP是一个专注于人类语言和计算机之间相互交互的研究领域 , 处于计算机科学、人工智能和计算语言学的交叉领域 。 文本挖掘和文本分析技术通常可以互换使用 , 既是NLP的前置活动也可以是NLP本身的应用 。
NLP的目标是理解计算机文本中的自然语言 , NLP用于文本的分类、提取和总结 , 我们在理解和技术方面的进步正迅速将NLP推向分析和其他许多领域应用的前沿 。 例如 , 在分析过程中 , 我们获取过去的描述信息(如文本、文档、推文、演讲) , 并对它们进行语义分类或情绪理解 。
情绪分析对于理解人们如何看待产品或服务特别有用 。 在医疗保健领域 , 情绪分析被用来衡量患者的情绪 , 以及识别那些有心力衰竭风险的患者 。 然后 , 这些文本摘要将作为分析过程的输入 , 用于预测建模、决策分析、搜索或回答问题的机器人 。
图1-6概述了这样一个自然语言处理的普遍过程 。
|6种数据分析实用方法,终于有人讲明白了
本文插图
【|6种数据分析实用方法,终于有人讲明白了】

▲图1-6 自然语言处理过程示意图
NLP的一个非常实际的应用是在市场营销领域 , 文本用于理解客户对某商品(通常指品牌或产品)的整体“情感” 。 这里的情感指的是如何理解客户的情绪并对情绪进行提炼与归类 。 除了情感分析 , NLP还可以有多种应用 , 比如:

  • 语法检查
  • 实体提取
  • 翻译
  • 搜索
  • 标准化
  • 回答问题
  • 拓展学习:欲了解更多自然语言处理中使用的技术 , 请阅读Matthew Mayo的文章:https://www.kdnuggets.com/2017/02/natural-language-processing-key-terms-explained.html
自然语言生成(Natural Language Generation , NLG)是人工智能和NLP研究的一个子集 , 它指自动从结构化数据中生成有意义的、可阅读的文本 。 与NLP不同 , NLG走的是另一条研究道路 。
也就是说 , NLG以数据或其他形式的信息作为输入 , 以文本作为输出 。
NLG已经被广泛应用于各种聊天机器人 , 从客户服务(见Pathania和Guzma , Chatbots in Customer Service)到疾病症状诊断 。 聊天机器人只是NLG的一种应用 , 其他应用还包括自动化完成下列事项:


推荐阅读