|一文读懂机器学习( 五 )


本文插图

基础的数据分析
如果数据是数字类型 , 可以提前做一个数据分析 , 以下几个量是比较常见的:

  • 中位数:数据从小到大排列 , 最中间的数字就是中位数 。
  • 众数:数据中出现次数最多的数字 。
  • 百分位数:如果将一组数据从小到大排序 , 并计算相应的累计百分位 , 则某一百分位所对应数据的值就称为这一百分位的百分位数 。
  • 标准差 , 方差:衡量数据的分布均衡不均衡 。
  • 数据的标准化normalization:以前的数据差距大 , 通过标准化 , 将它们的差距缩小 , 这样使得程序更好的计算 , 数据集和测试集都要标准化 。
  • 异常值outline:异常值的定义方法有很多 , 一种方法是比25%的1.5倍还小或75%的1.5倍(大太多了)还大 , 就是异常值 。
  • 过拟合overfittting和欠拟合underfitting
过拟合overfittting: 训练数据上效果非常好 , 没见过的数据就不行。
欠拟合underfitting: 训练数据上的效果都不怎么行 。
过拟合发生在相对于训练数据的量和噪声 , 模型过于复杂的情况 。 可能的解决办法有:
  • 简化模型 , 可以通过选择一个参数更少的模型(比如线性模型 , 而不是高阶多项式模型) , 减少训练数据的 属性数或限制模型 。
  • 收集更多的训练数据(然而获取额外的训练数据并不是那么轻易和廉价的) 。
  • 减小训练数据的噪声(错误测量引入的教噪声 , 比如修改数据错误 , 去除异常值) 。
  • 限定一个模型让它更简单 , 正则化 。
欠拟合发生在你的模型过于简单的时候 , 可能解决的办法有:
  • 选择一个更复杂的模型 , 带有更多的参数 。
  • 用更好的特征训练学习算法(特征工程) 。
  • 减小对模型的限制(比如减小正则化超参数) 。
机器学习重点解决的事情如何克服overfitting和underfitting 。 在统计学中 , underfitting和overfittting是bias and variance 。
  • bias and variance
bias: 随着模型复杂度的上升 , 错误有一些变化 。 模型不够完整 , 没有把相关的特性挖掘出来 。 这种情况叫bias 。
variance: 对训练数据太过敏感 , 数据稍微一变就会产生错误 。
|一文读懂机器学习
本文插图

上图的意思:
  • 随着模型的复杂度越来越高 , overfitting的情况会越来越多(variance) , underffting的情况越来越小 。
  • 期望达到对于现有的数据比较好 , 对于预期的数据也比较好 。
参考资料
  • Hands on TensorFlow
  • 统计学习方法
  • Machine learning: an algorithmic perspective
  • Learning from data
编辑:王菁
校对:林亦霖
—完—
【|一文读懂机器学习】想要获得更多数据科学领域相关动态 , 诚邀关注清华-青岛数据科学研究院官方微信公众平台“数据派THU ” 。


推荐阅读