产业气象站|AI加持下的互联网反欺诈|反欺诈AI全域治理三部曲

互联网是一把双刃剑 。 随着互联网成为各行业加快业务开展的关键技术 , 各行业都面临着诸如垃圾评论、排名欺诈、交易欺诈、薅羊毛、账户盗用、扫码/信用卡套现、批量虚开等欺诈问题 , 反欺诈也成为各行各业保证运营业务与营销业务正常开展的前提 。 这些欺诈现象的背后往往是黑产团伙协同作案 , 企业与日俱增的反欺诈成本 。
产业气象站|AI加持下的互联网反欺诈|反欺诈AI全域治理三部曲
文章图片
反欺诈模型作为一个重要的技术手段 , 在互联网、金融、传统零售等各行各业广泛的存在 , 但却没有一套完整的理论框架和方法论 。 本文结合互联网反欺诈的现状 , 罗列总结了互联网反欺诈模型体系建设过程中的经验和教训 。
随着互联网欺诈团伙化、产业化 , 风控、反欺诈、信贷、异常检测等领域均需要认真思考如下六个方面的问题 , 并提出尽可能合理的解决方案:
1.原始案件数据标注来源
2.历史案件深度挖掘应用
3.专家经验规则自学习机理
4.风评结果可解释性说明
5.模型实时计算预测服务
6.案件核准闭环运维思维
01、原始案件数据标注来源
反欺诈案件标注数据是极为珍贵的资源 。 绝大多数场景下 , 项目初始化阶段是没有任何数据标注的 。 标注数据来源从技术手段分类有:
名单库
传统的黑白名单通过内部积累和外部获取的各种人员信息、手机号、设备、IP、证件号等对欺诈行为进行判断 , 是一种实施简单、成本较低的反欺诈手段 。 但存在准确度低、覆盖面窄等缺点 , 仅可作为互联网反欺诈的第一道过滤网使用 。
专家规则
专家规则是目前较为成熟的反欺诈方法和手段 , 基于反欺诈策略人员的经验和教训 , 制定反欺诈规则 , 当用户的操作行为触发了反欺诈规则时 , 启动相应处置策略 。
?优点:实现较为简单、可解释性强、可快速响金融行业的监管文件 。 ?缺点:存在严重的滞后性 , 对于新出现的欺诈手段和方法无法及时应对 , 往往需要付出大量损失代价后才能总结规律 , 提取新的规则 。
此外 , 由于人脑的限制 , 专家规则只能使用一个或几个维度的标量进行计算和识别 , 存在着较大的误报率 。 同时 , 专家规则严重依赖于策略人员的经验水平 , 不同水平的策略人员制定的专家规则效果也会存在较大区别 , 主要作为互联网反欺诈的应急响应手段和兜底防线 。
产业气象站|AI加持下的互联网反欺诈|反欺诈AI全域治理三部曲
文章图片
统计分析
运用对比分析、趋势分析、分布分析、漏斗分析等数据分析手段 , 挖掘数据一致性、集中性等特征发现欺诈规律 , 适用于静态数据场景 , 如模型POC、机器学习比赛等 , 具体采用数据分析技术+客群分类+场景化先验知识假设综合技术手段 , 可以获取很好的召回率和模型可解释性 。
在生产环境实时计算场景 , 劣势也很明显 , 主要包括如下几点:
?作为一种事后分析技术手段 , 不具实时性 , 无法在事中实时检测中发挥作用 。
?作为基于业务先验经验基础上分析推理 , 不具备对抗性 , 模型有效时间短 , 容易被经验丰富 , 组织化黑产团伙分析绕过 。
?基于场景化欺诈特性假设和数据分布假设 , 在业务演化和场景变化后 , 模型大多数情况会失去原有预测效果 , 模型不具备场景普适性和时间稳定性 。
异常检测
适用于场景化个体欺诈场景和场景化团伙欺诈场景 。 在账号盗用、盗转盗刷、防内鬼等个体欺诈场景 , 常规打法有两类:一类是规则+简单统计模型 , 基于用户注册、登录、消费、转账信息构建统计特征、拟合特征和分类特征等 , 对接指数移动平均算法、LOF、IForest、Holt-Winters、ARIMA算法发现异常点 。
?优点:开发部署快 , 可解释性强 。 ?缺点:误报率高 , 不适应用户正常行为的突然改变 , 随着时间的迁移 , 特征工程将会变得越来越复杂 , 并且在预测的时候 , 时间复杂度也会大量增加 。


推荐阅读