![8种交叉验证类型的深入解释和可视化介绍](http://img.jiangsulong.com/220422/06094IH8-0.jpg)
文章插图
交叉验证(也称为"过采样"技术)是数据科学项目的基本要素 。它是一种重采样过程,用于评估机器学习模型并访问该模型对独立测试数据集的性能 。
在本文中,您可以阅读以下大约8种不同的交叉验证技术,各有其优缺点:
1. Leave p out cross-validation
1. Leave one out cross-validation
1. Holdout cross-validation
1. Repeated random subsampling validation
1. k-fold cross-validation
1. Stratified k-fold cross-validation
1. Time Series cross-validation
1. Nested cross-validation
在介绍交叉验证技术之前,让我们知道为什么在数据科学项目中应使用交叉验证 。
为什么交叉验证很重要?我们经常将数据集随机分为训练数据和测试数据,以开发机器学习模型 。训练数据用于训练ML模型,同一模型在独立的测试数据上进行测试以评估模型的性能 。
随着分裂随机状态的变化,模型的准确性也会发生变化,因此我们无法为模型获得固定的准确性 。测试数据应与训练数据无关,以免发生数据泄漏 。在使用训练数据开发ML模型的过程中,需要评估模型的性能 。这就是交叉验证数据的重要性 。
数据需要分为:
· 训练数据:用于模型开发
· 验证数据:用于验证相同模型的性能
![8种交叉验证类型的深入解释和可视化介绍](http://img.jiangsulong.com/220422/06094K416-1.jpg)
文章插图
简单来说,交叉验证使我们可以更好地利用我们的数据 。
1.Leave p-out cross-validationLpOCV是一种详尽的交叉验证技术,涉及使用p观测作为验证数据,而其余数据则用于训练模型 。以所有方式重复此步骤,以在p个观察值的验证集和一个训练集上切割原始样本 。
已推荐使用p = 2的LpOCV变体(称为休假配对交叉验证)作为估计二进制分类器ROC曲线下面积的几乎无偏的方法 。
2. Leave-one-out cross-validation留一法交叉验证(LOOCV)是一种详尽的穷尽验证技术 。在p = 1的情况下,它是LpOCV的类别 。
![8种交叉验证类型的深入解释和可视化介绍](http://img.jiangsulong.com/220422/06094KO6-2.jpg)
文章插图
对于具有n行的数据集,选择第1行进行验证,其余(n-1)行用于训练模型 。对于下一个迭代,选择第2行进行验证,然后重置来训练模型 。类似地,这个过程重复进行,直到n步或达到所需的操作次数 。
以上两种交叉验证技术都是详尽交叉验证的类型 。穷尽性交叉验证方法是交叉验证方法,以所有可能的方式学习和测试 。他们有相同的优点和缺点讨论如下:
优点: 简单,易于理解和实施
缺点: 该模型可能会导致较低的偏差、所需的计算时间长
3.Holdout cross-validation保留技术是一种详尽的交叉验证方法,该方法根据数据分析将数据集随机分为训练数据和测试数据 。
![8种交叉验证类型的深入解释和可视化介绍](http://img.jiangsulong.com/220422/06094G141-3.jpg)
文章插图
在保留交叉验证的情况下,数据集被随机分为训练和验证数据 。通常,训练数据的分割不仅仅是测试数据 。训练数据用于推导模型,而验证数据用于评估模型的性能 。
用于训练模型的数据越多,模型越好 。对于保留交叉验证方法,需要从训练中隔离大量数据 。
优点:和以前一样,简单,易于理解和实施
缺点: 不适合不平衡数据集、许多数据与训练模型隔离
4. k-fold cross-validation在k折交叉验证中,原始数据集被平均分为k个子部分或折叠 。从k折或组中,对于每次迭代,选择一组作为验证数据,其余(k-1)个组选择为训练数据 。
![8种交叉验证类型的深入解释和可视化介绍](http://img.jiangsulong.com/220422/06094M114-4.jpg)
文章插图
该过程重复k次,直到将每个组视为验证并保留为训练数据为止 。
![8种交叉验证类型的深入解释和可视化介绍](http://img.jiangsulong.com/220422/06094H018-5.jpg)
文章插图
模型的最终精度是通过获取k模型验证数据的平均精度来计算的 。
![8种交叉验证类型的深入解释和可视化介绍](http://img.jiangsulong.com/220422/06094M926-6.jpg)
文章插图
LOOCV是k折交叉验证的变体,其中k = n 。
优点:
· 该模型偏差低
· 时间复杂度低
· 整个数据集可用于训练和验证
缺点:不适合不平衡数据集 。
5. Repeated random subsampling validation重复的随机子采样验证(也称为蒙特卡洛交叉验证)将数据集随机分为训练和验证 。数据集的k倍交叉验证不太可能分成几类,而不是成组或成对,而是在这种情况下随机地成组 。
推荐阅读
- 宝宝夜醒的18种原因分别是什么?
- 2000余字长文讲解Excel中的“数据验证”,我收藏了
- SpringBoot-登录验证码实现
- Web渗透测试——验证码自动识别工具
- 女人有8种话不要乱讲
- 老茶树王绽新枝,8种普洱古树纯料茶
- Go 项目实战:Golang HTTP 验证码
- 澜沧古茶纯料古树熟茶,8种普洱古树纯料茶
- 黑茶48种配方和功效,黑茶具有降脂减肥
- CentOS7下利用Google Authenticator实现SSH登录的二次身份验证