|6种数据分析实用方法,终于有人讲明白了( 四 )

人们通常根据计算机的“学习模式”对机器学习算法进行分类(记住 , 机器学习就是让计算机通过分析数据中的模式来提炼规律) , 也就是说 , 针对同样的数据 , 可以有不同的机器学习算法来对真实世界(问题)建模 。
一般而言 , 有四种机器学习模式或者学习模型算法 , 它们的区别在于输入变量扮演的角色不同 , 以及如何为训练模型准备数据 。
表1-1概述了不同机器学习算法的差异 。
|6种数据分析实用方法,终于有人讲明白了
本文插图

表1-1 机器学习模式
06 数据挖掘

  • 数据挖掘:数据挖掘是在(通常是大型)数据集中发现和解释规律模式 , 以解决业务问题的过程 。
在20世纪90年代末和21世纪初 , 数据挖掘作为一种分析大型数据库以生成新的或与众不同的信息的方法而被广泛应用 。 数据挖掘界的梦想是“找到干草堆中的一根针” 。 数据挖掘与统计学不同的是 , 在数据探索之前 , 不一定有一个先验的理论驱动假说 。
  • 先验:“先验”被定义为“从早期开始” , 或者简单地解释为“事先” 。 先验假设是在进行实验或收集数据之前陈述的假设 。
数据挖掘采用传统的统计方法以及人工智能和机器学习技术 , 目的是在我们拥有的数据中识别出以前未知的模式并进行预测 。
就像分析中采用的其他技术一样 , 数据挖掘遵循这样一个生命周期:通常从问题描述开始 , 然后对数据进行理解 , 再进行模型构建 , 并根据结果采取相应行动 。
一般情况下 , 数据挖掘人员识别出感兴趣的输出变量 , 然后使用各种技术对数据进行预处理(如聚类、主成分分析和关联规则学习) , 然后将这些输出变量作为输入应用到数据挖掘算法中 , 如回归算法、神经网络、决策树或支持向量机 。
数据挖掘过程中的一个关键部分是模型评估和确保我们不会过度拟合模型 。
关于作者:格雷戈里·S. 纳尔逊(Gregory S. Nelson) , ThotWave的创始人和CEO , 是国际分析研究所(International Institute for Analytics)的专家 , 也是杜克大学福卡商学院(Fuqua School of Business)的特约教授 。
本文摘编自《数据分析即未来:企业全生命周期数据分析应用之道》 , 经出版方授权发布 。
|6种数据分析实用方法,终于有人讲明白了
本文插图

延伸阅读《数据分析即未来》
推荐语:融合了数据科学、设计思维和组织理论 , 全方位阐释如何高效达成高水平企业级数据分析能力 。


推荐阅读