|一文读懂机器学习( 五 )
本文插图
基础的数据分析
如果数据是数字类型 , 可以提前做一个数据分析 , 以下几个量是比较常见的:
- 中位数:数据从小到大排列 , 最中间的数字就是中位数 。
- 众数:数据中出现次数最多的数字 。
- 百分位数:如果将一组数据从小到大排序 , 并计算相应的累计百分位 , 则某一百分位所对应数据的值就称为这一百分位的百分位数 。
- 标准差 , 方差:衡量数据的分布均衡不均衡 。
- 数据的标准化normalization:以前的数据差距大 , 通过标准化 , 将它们的差距缩小 , 这样使得程序更好的计算 , 数据集和测试集都要标准化 。
- 异常值outline:异常值的定义方法有很多 , 一种方法是比25%的1.5倍还小或75%的1.5倍(大太多了)还大 , 就是异常值 。
- 过拟合overfittting和欠拟合underfitting
欠拟合underfitting: 训练数据上的效果都不怎么行 。
过拟合发生在相对于训练数据的量和噪声 , 模型过于复杂的情况 。 可能的解决办法有:
- 简化模型 , 可以通过选择一个参数更少的模型(比如线性模型 , 而不是高阶多项式模型) , 减少训练数据的 属性数或限制模型 。
- 收集更多的训练数据(然而获取额外的训练数据并不是那么轻易和廉价的) 。
- 减小训练数据的噪声(错误测量引入的教噪声 , 比如修改数据错误 , 去除异常值) 。
- 限定一个模型让它更简单 , 正则化 。
- 选择一个更复杂的模型 , 带有更多的参数 。
- 用更好的特征训练学习算法(特征工程) 。
- 减小对模型的限制(比如减小正则化超参数) 。
- bias and variance
variance: 对训练数据太过敏感 , 数据稍微一变就会产生错误 。
本文插图
上图的意思:
- 随着模型的复杂度越来越高 , overfitting的情况会越来越多(variance) , underffting的情况越来越小 。
- 期望达到对于现有的数据比较好 , 对于预期的数据也比较好 。
- Hands on TensorFlow
- 统计学习方法
- Machine learning: an algorithmic perspective
- Learning from data
校对:林亦霖
—完—
【|一文读懂机器学习】想要获得更多数据科学领域相关动态 , 诚邀关注清华-青岛数据科学研究院官方微信公众平台“数据派THU ” 。
推荐阅读
- 技术编程|机器学习又一重要医学应用!培植人造器官
- 智能机器人|【好莱坞首次用AI机器人主演】
- 楚天都市报|机器替换人工上班获奖励三千万元!企业智能化改造增了效率还拿补贴
- 机器|令人惊叹的伐木机器,5米高的树直接从树顶“劈下”,看着是真爽
- 无人科技|智能检测机器人亮相北京动车段
- 人工智能|哈工大将在重庆建研究院,聚集汽车、机器人、人工智能等领域
- |一文带你读懂区块链的本质
- 智能机器人|智能检测机器人亮相北京动车段
- 智能机器人|陈根:全球首个AI发球机器人,不一样的智能陪练
- 中年|日本外交官嫁到王室成生育机器,雅子王妃疑因生育女孩患上抑郁症