|6种数据分析实用方法,终于有人讲明白了( 三 )


  • 把商业智能报表归纳成完整的分析报告(Qlik、Tableau、TIBCO、Microstrategy、Sisense、Information Builders都提供这类方法)
  • 自动创建财务报表并完成分析(Nanalyze软件提供此类功能)
  • 制作每日体育资讯简报(StatsMonkey提供此类功能)
  • 自动编制客户服务代表的绩效评估(Narrative Science公司的Quill软件提供此类功能)
  • 在客户关系管理系统中自动创建CRM话术脚本 , 建议销售机会(Yseop的Savvy提供此类功能)
  • 为小企业提供智能的“财务分析师”整体解决方案(Arria公司的Recount软件提供此类功能)
历史上 , 自然语言处理领域涉及规则的直接编码 , 以便处理语言本体 , 定义单词的结构 , 理解内容和上下文 , 以及它们在日常语言中的使用方式 。 统计计算、计算语言学和机器学习的现代进步正以前所未有的速度改变着NLP的世界 。
04 文本挖掘与文本分析
一般来说 , 文本分析中最令人困惑的一个方面可能是NLP和文本挖掘之间的区别 。 就像在数据挖掘中所做的一样 , 我们试图从数据中提取有用的信息 。 在文本分析情况下 , 数据恰好是文本 , 从中提取的信息包括在文本数据中发现的模式和趋势 。
文本挖掘处理文本数据本身 , 我们试图回答诸如词汇的频率、句子长度、某些文本字符串的存在或不存在等问题 。 我们可以解决概述的问题(例如 , 使用NLP中的技术进行分类) 。 本质上 , 文本挖掘通常是NLP的前奏 。
文本分析涵盖的范围广泛 , 通常包括应用统计分析、机器学习和其他一些高级分析技术 , 但通常被认为等同于文本挖掘 。 我觉得这是个灰色地带 。
注意 , 在商业智能领域人们经常使用文本分析这一术语 , 以表示更多的简单行动可以通过典型的报表方式(例如词云、词频分析等) , 以一种自动和可视化的方式完成 。
文本挖掘一般是数据科学家喜欢使用的提法 , 他们虽然拥有很多更先进的方法 , 但那些在文本挖掘中需要做的计数、统计之类的基础事务也是他们复杂工作的一部分 。 我认为这符合我的观点 , 即分析是商业智能(BI)的一种自然进化 。
需要特别注意的是 , 不同的社区、不同的场景 , 会使用不同的术语 , 这在实际工作中可能会引起一些理解的混淆 。 例如 , 参见:
www.linguamatics.com/blog/are-terms-text-mining-and-text-analytics-largely-inter changeable
05 机器学习
美国最大的私营软件公司和分析巨头SAS公司将机器学习定义为:
……一种自动建立分析模型的数据分析方法 。 机器学习使用数据迭代学习的算法 , 使计算机能够在无须显式编程的情况下具有找到隐藏见解的洞察力 。
机器学习的核心是使用算法来建立量化分析模型 , 帮助计算机模型从数据中“学习” 。 它同以人为中心的处理过程不同 , 它是由计算机学习和发现隐藏在数据中的模式 , 而不是由人去直接建立模型 。
一般而言 , 机器学习中模型建立和模型管理的概念是指能够持续并且重复开展后续的决策流程 , 而不是高度人工参与的常常基于统计手段的分析 。
随着近年来计算能力的进步 , 机器学习可以用来自动地实现针对大数据的复杂数学计算 , 而这在以前是不可能实现的 。
人类通常每周可以建立一到两个好的模型 , 而机器学习每周可以创建数千个模型 。
——Thomas H.Davenpot , 分析思想领袖(Davenport , 2013年)
图1-7概述了机器学习中的常见方法 。
|6种数据分析实用方法,终于有人讲明白了
本文插图

▲图1-7 机器学习常用技术归纳