数据不平衡问题数据不平衡问题?所谓的不平衡指的是不

数据不平衡问题
?所谓的不平衡指的是不同类别的样本量差异非常大，或者少数样本代表了业务的关键数据(少量样本更重要) ，需要对少量样本的模式有很好的学习。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数
?据分布不均衡两种:
?大数据分布不均衡——整体数据规模较大，某类别样本占比较小。例如拥有1000万条记录的数据集中，其中占比5万条的少数分类样本便于属于这种情况。
?小数据分布不均衡——整体数据规模小，则某类别样本的数量也少，这种情况下，由于少量样本数太少，很难提取特征进行有/无监督算法学习，此时属于严重的小数据样本分布不均衡。例如拥有100个样本， 20个A类样本， 80个B类样本。
文章插图
?典型场景
?CTR预估：广告点击率，通常只有百分之几，点击的样本占比非常少，大量的未点击样本
?异常检测：比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障等，这些数据样本所占的比例通常是整体样本中很少的一部分，以信用卡欺诈为例，刷实体信用卡的欺诈比例一般都在0.1%以内。
?罕见事件的分析：罕见事件分析与异常事件的区别在于异常检测通常都有是预先定义好的规则和逻辑，并且大多数异常事件都对会企业运营造成负面影响，因此针对异常事件的检测和预防非常重要;但罕见事件则无法预判，并且也没有明显的积极和消极影响倾向。
?工程过程中，应对样本不均衡问题常从以下三方面入手:
?欠采样:在少量样本数量不影响模型训练的情况下，可以通过对多数样本欠采样，实现少数样本和多数样本的均衡。
?过采样:在少量样本数量不支撑模型训练的情况下，可以通过对少量样本过采样，实现少数样本和多数样本的均衡。
?模型算法:通过引入有倚重的模型算法，针对少量样本着重拟合，以提升对少量样本特征的学习
?常见处理方法
欠采样
?欠抽样(也叫下采样、under-sampling ， US)方法通过减少分类中多数类样本的样本数量来实现样本均衡。通过欠采样，在保留少量样本的同时，会丢失多数类样本中的一些信息。经过欠采样，样本总量在减少。
文章插图
欠采样 – 随机删除
?随机地删除一些多量样本，使少量样本和多量样本数量达到均衡
文章插图
欠采样 – 原型生成 (Prototype generation)
?PG 算法主要是在原有样本的基础上生成新的样本来实现样本均衡，具体做法如下：
文章插图
?下图所示为三类共2000个样本点的集合，每个样本维度为2 ， label1个数为1861 ， label2个数为108 ， label3个数为31 。利用PG算法完成数据均衡后，样本整体分布没有变化。
文章插图
过采样
?过抽样(也叫上采样、over-sampling)方法通过增加分类中少数样本的数量来实现样本均衡，最直接的方法是简单复制少数类样本形成多条记录，这种方法的缺点是如果样本特征少而可能导致过拟合的问题。
?经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本，对应的算法会在后面介绍。

数据不平衡问题

推荐阅读

新华社|外媒：拉美是受“信息疫情”影响最严重的地区

向往4：《向往4》张子枫全力冲刺高考！大清早起来复习，做笔记方式太真实了

美食承教事业上的女强人，家庭中的顶梁柱，聪明能干的四大生肖女

东方网|东方快评丨门票减免并非万能，练好内功才是正途

情侣闹矛盾女子砸毁动车玻璃被处以行政拘留五日

锻炼肌肉的最佳年龄是多少？

詹姆斯|利拉德再次力挺詹皇拿MVP：他将湖人从乐透区带到西部榜首

怎么样有效提高泪点

「数码鲜蜂」源自5G的WiFi6，终于上市了

不拉屎的时候，痔疮会不会流血?

如何让HR更容易发现你？发求职邮件是门学问！

国务院国有资产监督管理委员会|国资委：央企上半年累计降低全社会运行成本超1200亿元

花钱不多吃的舒坦，买菜就到地利生鲜

特斯拉|车顶维权女车主曝光庭审内容：特斯拉想要和解被其拒绝

过往年少|国产操作系统日趋完善，佳能、爱普生等品牌加速完成兼容测试

可爱的小冉|新的希望，迎接新的机遇，早安，新的一天

珙桐花花语珙桐花传说

6G标准控制权争夺开始了？美、英等十国联合行动，网友：一盘散沙

第一线电竞|百万网友在线围观，无美颜无滤镜！孤影首次粉丝见面会强势来袭

楼市@美国印出来的楼市盛宴或将中道而止，高盛：1.2万亿美元将流入中国