而两步聚类法则克服了以上缺点,可以包含类别变量和数值型变量,并且当硬件条件不足或数据集非常大时,都能顺利运行 。这种两步聚类法可以看成是改进版BIRCH聚类算法和层次聚类法的结合,先用BIRCH算法中的“聚类特征树”做预聚类,形成子类,然后把子类作为输入,做层次聚类 。
1. 两步聚类的原理:
第一步:预聚类过程:
构建聚类特征树(CFT),分成很多子类 。
开始时,把某个观测量放在树的根节点处,它记录有该观测量的变量信息,然后根据指定的距离测度作为相似性依据,使每个后续观测量根据它与已有节点的相似性,放到最相似的节点中,如果没有找到某个相似性的节点,就为它形成一个新的节点 。在这一步当中,离群点将会被识别并剔除,不会像在K-Means当中那么容易地影响结果 。
第二步:正式聚类:
将第一步完成的预聚类作为输入,对之使用分层聚类的方法进行再聚类(以对数似然函数作为距离的度量) 。每一个阶段,利用施瓦兹贝叶斯信息准则(BIC)评价现有分类是否适合现有数据,并在最后给出符合准则的分类方案 。
2. 两步聚类的优点:
2.1.海量数据处理;
2.2.自动标准化数据;
2.3.能够处理分类变量和连续变量的混合数据;
2.4.可自动丢弃异常值或者将异常值归入最近的类 。
2.5.可自动确定或者根据业务需要人工指定分类数目;
3. 两步聚类的效果对比:
对第六点同样的数据进行两步聚类,得到模型最优结果如下
文章插图
文章插图
图4:用户分群两步聚类效果
4. 两步聚类结果解读:
聚类1:低端低龄群体
聚类2:学生或新入职场高活跃群体
聚类3:青年低活跃群体
聚类4:青年挂机群体
聚类5:职场办公群体
聚类6:高龄低活跃群体
文章插图
表3:用户分群两步聚类结果
七、业务案例 – 通过K-Means聚类,挖掘特殊行为模式的客户群
1. 业务需求
在本案中,产品经理希望了解登录不活跃用户的行为模式,并且能针对不同的行为组合,对庞大的用户群体进行细分,从而关注不同群体的不同需求,甚至挖掘垂直领域需求,从而在产品或运营侧采取措施,拉活沉默用户,提高DAU 。
2. 分析目标
2.1.发现使用行为模式异于大盘典型用户的细分群体
2.2.粗估每个细分群体的用户数量
2.3.了解每个细分群体的行为特征和用户画像
2.4.基于上述结果,在拉活方面,提出产品或运营建议或明确进一步探索的方向
3. 分析过程
a) 特征提取
分析聚焦于用户的点击行为 。在本例中,考虑到用户行为的典型性,选取了4个完整的周,共28天的数据,并且时间窗当中无任何节日 。另外,考虑到计算性能和探索性分析需要反复迭代的场景,只从大盘当中随机抽取千份之一的用户作为代表 。
b) 特征筛选
在特征提取阶段一共提取了接近200个功能点的点击数据 。但是这些特征当中,有些覆盖面非常低,只有百份之一的用户在28天当中曾经使用,这些低覆盖的特征会首先被去除 。
另外,前面谈到高度相关的变量也会干扰聚类过程,这里对所有特征对两两进行计算皮尔逊相关系数,对高相关特征(相关系数大于0.5)则只保留其中保留覆盖面最广的特征,以便最大限度地体现用户差异 。
c) 特征改造-探索
经过上面两步后,笔者曾进行过多次聚类探索,但无一例外,聚类结果都呈现出一个超级大类搭配数十个非常小的小类(几个或十几个用户) 。这样的结果,显然与我们的分析目标是想违背的 。
其一,这里挖掘出的小群体体积太小,从业务角度来说没有价值;其二,超级大类基本等同与大盘用户,没有能找出其中的用户差异 。
为什么会有这样的结果呢,主要是因为点击行为基本上遵循的是幂率分布,大量用户集中在低频次区间,而极少量用户却会有极高的频次,这样在典型的聚类算法中,高频次用户都会被聚集成人数极少的小类,而大量的低频词用户就会被聚集成一个超级大类 。
推荐阅读
- 华为手机提示拦截QQ删除照片,腾讯QQ回应尊重用户隐私
- 对流式电暖器优缺点分析
- 仔细给你来分析红茶到底值不值得收藏
- 分享7款帮助独立站提升站外引流的SEO分析工具
- 为何鲍鱼有3头和9头之分?听海鲜老板一分析,原来之前买错了
- 国三小轿车还能开多久呢?老司机做了分析,所有的车主快看看吧
- 新基建5G等技术加持下,服务机器人行业将迎来增长黑天鹅?
- Windows 10中的DHCP安全性:分析关键漏洞CVE-2019-0726
- 微信11亿用户,为啥发朋友圈的人却越来越少?原因无非这3点
- 企业APP推广案例分析 软件推广赚钱