但是,聚类分析过程对用于聚类的变量还有一定的要求:
1.这些变量在不同研究对象上的值具有明显差异;2.这些变量之间不能存在高度相关 。
首先,用于聚类的变量数目不是越多越好,没有明显差异的变量对聚类没有起到实质意义,而且可能使结果产生偏差;其次,高度相关的变量相当于给这些变量进行了加权,等于放大了某方面因素对用户分类的作用 。
识别合适的聚类变量的方法:1.对变量做聚类分析,从聚得的各类中挑选出一个有代表性的变量;2.做主成份分析或因子分析,产生新的变量作为聚类变量 。
(2)聚类分析
相对于聚类前的准备工作,真正的执行过程显得异常简单 。数据准备好后,导入到统计工具中跑一下,结果就出来了 。这里面遇到的一个问题是,把用户分成多少类合适?
通常,可以结合几个标准综合判断:
1.看拐点(层次聚类会出来聚合系数图,一般选择拐点附近的几个类别);2.凭经验或产品特性判断(不同产品的用户差异性也不同);3.在逻辑上能够清楚地解释 。
![用户增长分析——用户分群分析](http://img.jiangsulong.com/220403/0609363119-1.jpg)
文章插图
图2:聚合系数图
(3)找出各类用户的重要特征
确定一种分类方案之后,接下来,我们需要返回观察各类别用户在各个变量上的表现 。根据差异检验的结果,我们以颜色区分出不同类用户在这项指标上的水平高低 。其他变量以此类推 。最后,我们会发现不同类别用户有别于其他类别用户的重要特征 。
(4)聚类解释和命名
在理解和解释用户分类时,最好可以结合更多的数据,例如,人口统计学数据、功能偏好数据等等 。然后,选取每一类别最明显的几个特征为其命名,大功告成 。
五、K-means聚类在用户分群中的应用案例
在本案例中,我们首先来看最常用的K-Means聚类法(也叫快速聚类法),这是非层次聚类法当中最常用的一种 。因其简单直观的计算方法和比较快的速度(相对层次聚类法而言),进行探索性分析时,K-Means往往是第一个采用的算法 。并且,由于其广泛被采用,在协作沟通时也节省了不少用于解释的时间成本 。
1. K-means的算法原理:
a、随机取k个元素,作为k个簇各自的中心 。
b、计算剩下的元素到k个簇中心的相似度,将这些元素分别划归到相似度最高的簇 。
c、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数 。
d、将全部元素按照新的中心重新聚类 。
e、重复第4步,直到聚类结果不再变化,然后结果输出 。
假设我们提取到原始数据的集合为(X1, X2, …, Xn),并且每个Xi为d维的向量, K-means聚类的目的就是,在给定分类组数k(k ≤ n)值的条件下,将原始数据分成k类,S = {S1, S2, …, Sk},在数值模型上,即对以下表达式求最小值(μi 表示分类Si 的平均值):
![用户增长分析——用户分群分析](http://img.jiangsulong.com/220403/06093A4c-2.jpg)
文章插图
2. 用户分群背景和目标:
某产品覆盖社会各种群体(不同年龄、不同行业、不同兴趣等),需要将大盘用户进行一定细分,然后针对性的开展运营活动 。
3. 聚类变量选取:
用户画像特征、用户状态特征、用户活跃特征
4. 聚类分析和结果:
通过相关性分析和变量重要性分析,剔除部分效果差的变量,然后对剩余11个变量进行多次训练(目标聚类个数,参与的变量,组内个体差异容忍度),最终得出聚类结果 。
![用户增长分析——用户分群分析](http://img.jiangsulong.com/220403/06093C938-3.jpg)
文章插图
![用户增长分析——用户分群分析](http://img.jiangsulong.com/220403/06093B1T-4.jpg)
文章插图
图3:用户分群K-means聚类效果
5. 结果解读和命名:
聚类1:低端低龄群体
聚类2:学生活跃群体
聚类3:职场高粘性群体
聚类4:职场低粘性群体
聚类5:高龄低活跃群体
![用户增长分析——用户分群分析](http://img.jiangsulong.com/220403/06093C917-5.jpg)
文章插图
表2:用户分群K-mean聚类结果
六、两步聚类和k-means聚类的效果对比
前面谈到的K-Means聚类法有简单、直观和快速的优点 。但是其缺点是只能采用数值型变量,不能包含类别变量,并且对异常值非常敏感,离群值很容易严重影响聚类结果 。并且,当数据集比较大(在腾讯,这种情况很常见),不能把所有数据点都装进内存的时候,K-Means就无法在单机上运行 。
推荐阅读
- 华为手机提示拦截QQ删除照片,腾讯QQ回应尊重用户隐私
- 对流式电暖器优缺点分析
- 仔细给你来分析红茶到底值不值得收藏
- 分享7款帮助独立站提升站外引流的SEO分析工具
- 为何鲍鱼有3头和9头之分?听海鲜老板一分析,原来之前买错了
- 国三小轿车还能开多久呢?老司机做了分析,所有的车主快看看吧
- 新基建5G等技术加持下,服务机器人行业将迎来增长黑天鹅?
- Windows 10中的DHCP安全性:分析关键漏洞CVE-2019-0726
- 微信11亿用户,为啥发朋友圈的人却越来越少?原因无非这3点
- 企业APP推广案例分析 软件推广赚钱