数据挖掘的10大算法我用大白话讲清楚了，新手一看就懂 _数据挖掘

一个优秀的数据分析师，除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外，还需要掌握一些数据挖掘的思想，帮助我们挖掘出有价值的数据，这也是数据分析专家和一般数据分析师的差距之一。

文章插图

数据挖掘主要分为分类算法，聚类算法和关联规则三大类，这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂，今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理，帮助大家快速理解。
算法分类
连接分析：PageRank
关联分析：Apriori
分类算法：C4.5，朴素贝叶斯，SVM，KNN，Adaboost，CART
聚类算法：K-Means，EM
一、PageRank当一篇论文被引用的次数越多，证明这篇论文的影响力越大。
一个网页的入口越多，入链越优质，网页的质量越高。
原理
网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和

一个网页的影响力：所有入链的页面的加权影响力之和。
一个网页对其他网页的影响力贡献为：自身影响力/出链数量。
用户并不都是按照跳转链接的方式来上网，还有其他的方式，比如直接输入网址访问。
所以需要设定阻尼因子，代表了用户按照跳转链接来上网的概率。

比喻说明
1、微博
一个人的微博粉丝数不一定等于他的实际影响力，还需要看粉丝的质量如何。
如果是僵尸粉没什么用，但如果是很多大V或者明星关注，影响力很高。
2、店铺的经营
顾客比较多的店铺质量比较好，但是要看看顾客是不是托。
3、兴趣
在感兴趣的人或事身上投入了相对多的时间，对其相关的人事物也会投入一定的时间。那个人或事，被关注的越多，它的影响力/受众也就越大。
关于阻尼因子
1、通过你的邻居的影响力来评判你的影响力，但是如果不能通过邻居来访问你，并不代表你没有影响力，因为可以直接访问你，所以引入阻尼因子的概念。
2、海洋除了有河流流经，还有雨水，但是下雨是随机的。
3、提出阻尼系数，还是为了解决某些网站明明存在大量出链（入链），但是影响力却非常大的情形。

出链例子：hao123导航网页，出链极多入链极少。
入链例子：百度谷歌等搜索引擎，入链极多出链极少。

二、Apriori（关联分析）关联关系挖掘，从消费者交易记录中发掘商品与商品之间的关联关系。
原理
1.支持度
某个商品组合出现的次数与总次数之间的比例。
5次购买，4次买了牛奶，牛奶的支持度为4/5=0.8 。
5次购买，3次买了牛奶+面包，牛奶+面包的支持度为3/5=0.6 。
2.置信度
购买了商品A，有多大概率购买商品B，A发生的情况下B发生的概率是多少。
买了4次牛奶，其中2次买了啤酒，(牛奶->啤酒)的置信度为2/4=0.5 。
买了3次啤酒，其中2次买了牛奶，(啤酒->牛奶)的置信度为2/3-0.67 。
3.提升度
衡量商品A的出现，对商品B的出现概率提升的程度。
提升度(A->B)=置信度(A->B)/支持度(B) 。
提升度>1，有提升；提升度=1，无变化；提升度<1，下降。
4.频繁项集
项集：可以是单个商品，也可以是商品组合。
频繁项集是支持度大于最小支持度（Min Support）的项集。
计算过程
1、从K=1开始，筛选频繁项集。
2、在结果中，组合K+1项集，再次筛选。
3、循环1，2步。直到找不到结果为止，K-1项集的结果就是最终结果。
扩展：FP-Growth 算法
Apriori 算法需要多次扫描数据库，性能低下，不适合大数据量。
FP-growth算法，通过构建 FP 树的数据结构，将数据存储在 FP 树中，只需要在构建 FP 树时扫描数据库两次，后续处理就不需要再访问数据库了。
比喻说明：啤酒和尿不湿摆在一起销售
沃尔玛通过数据分析发现，美国有婴儿的家庭中，一般是母亲在家照顾孩子，父亲去超市买尿不湿。
父亲在购买尿不湿时，常常会顺便搭配几瓶啤酒来犒劳自己，于是，超市尝试推出了将啤酒和尿不湿摆在一起的促销手段，这个举措居然使尿不湿和啤酒的销量都大幅增加。
三、AdaBoost原理
简单的说，多个弱分类器训练成为一个强分类器。