基于密集行为的欺诈检测算法-LockInfer( 二 )


文章插图
 
【基于密集行为的欺诈检测算法-LockInfer】图5.5
比如图5.5(a-b) 中的无密集行为 , 图5.5(c-d) 中的不重合密集行为 , 图5.5(e-f) 中的部分重合密集行为 。在邻接矩阵中寻找连接模式并 检查特征子空间中对应的形态 。
图5.5(a)、5.5(c) 和 5.5(e) 中展现了链接关系 , 也就是用黑点描述邻接矩阵中的非零值 , 所在 X 轴是粉丝编号 , 所在Y轴是被关注人的编号 。密集行为形成的 密集黑块用虚线高亮出来 。
图5.5(b) , 5.5(d) , 5.5(f) 中画出了粉丝节点的一对矩阵 的左奇异向量值 。这些图能够可视化特征子空间 , 虚线分别是 X 轴和Y轴 。借助 表5.5中的名词表征复杂模式可以讨论如下:

基于密集行为的欺诈检测算法-LockInfer

文章插图
 
不含密集行为:根据Chung-Lu模型[260] 仿真了不含密集行为的随机幂律图 。图5.5(a) 中的邻接矩阵并不含有大的、密集的块 。本工作研究了每一对二维 的特征子空间 , 看到在图5.5(b) 中原点周围的粉丝 。
不重合的密集行为:在腾讯微博中存在一组僵尸粉 F0 关注同一组人 。那么图5.5(c) 所示 , 邻接矩阵中就会有一个大的密集的块(83,208 个粉丝 , 密度 为 81.3%) 。图5.5(d) 画出了第 1 个和第 3 个左奇异向量形成的特征子空间 。粉丝组 F0 在 Y 轴一侧形成镭射形状的点簇 。
部分重合的密集行为:在邻接矩阵中会看到更惊奇的连接模式 , 也就是如 图5.5(e) 中的阶梯状(10,052 个粉丝 , 密度为 43.1%) 。僵尸粉组 F1-F3 的密 集行为分别形成三个密度超过 89% 的密集块 。然而不同于不重合密集行为 ,  F1 和 F2 有同样的关注人群 E1 , 而 F1 和 F3 有同样的关注人群 E2 。重合的密集行为的邻接矩阵的第2个和第 8 个左奇异向量形成了特征子空间 , 如 图5.5(f) 所示 , 含有多个微小的簇以同样的半径围绕着原点 。如同不完整的 球状 , 又像珍珠项链 , 称之为 “珍珠状” 模式 。
三、不同密集行为特征子空间可视化根据不同类型的仿真密集行为在奇异向量中留下的痕迹 , 总结 出一系列的诊断方法 。这些方法能够让数据科学家和实践者能够从奇特的连 接行为中发现可疑的用户行为 。
首先要了解一个概念 , 特征空间 , 也就是邻接矩阵经过SVD分解后任取两个左奇异向量构成的二维分布空间 。
通过领接矩阵特征空间的可视化可以量化lockstep行为:密集行为会在邻接矩阵中形成特定的连接模式和奇特的特征子空间的形状
  • 在模拟的随机仿真图中 , 在特征子空间中粉丝都在原点周围分散 。
  • 在微博数据中 , 粉丝组 F0 的不重合密 集行为会在邻接矩阵中形成密集块 , 在特征子空间中形成镭射线 。
  • 粉丝组 F1-F3 的重合 密集行为会形成阶梯状结构和珍珠状的子空间分布 。
接下来我们将仔细的对比一下不同密集图的邻接矩阵和特征空间的可视化结果 , 如下所示 。
1、不含密集行为的随机图
在节点之间随机产生边的仿真图中 , 在特征子空间中粉丝都在原点周围分散 。(左图是邻接矩阵可视化 , 右图是谱子空间可视化 , 下同)
基于密集行为的欺诈检测算法-LockInfer

文章插图
 
2、存在不重合密集行为的图
在微博数据中 , 粉丝组 F0 的不重合密 集行为会在邻接矩阵中形成密集块 , 在特征子空间中形成镭射线 。
基于密集行为的欺诈检测算法-LockInfer

文章插图
 
3、存在部分重合密集行为的图
粉丝组 F1-F3 的重合 密集行为会形成阶梯状结构和珍珠状的子空间分布 。
基于密集行为的欺诈检测算法-LockInfer

文章插图
 
下面是针对不同lockstep分类的可视化分析结论:
基于密集行为的欺诈检测算法-LockInfer

文章插图
 
四、密集行为的特征子空间的进一步分析在这一小节 , 首先介绍 “密集块” 的定义和理论上的密度阈值 , 然后介绍如何 绘制特征子空间 。通过讨论不同类密集行为 , 给出行为形成的密集块性质 , 并给出一系列从特征子空间的模式和连接模式来判断密集行为类型的规则 。


推荐阅读