趣投稿浅析机器学习中的自由度


趣投稿浅析机器学习中的自由度
本文插图

作者:Jason Browniee
翻译:张若楠
校对:林鹤冲
本文长度为2800字 , 建议阅读8分钟
本文介绍了自由度的概念 , 以及如何判断统计学模型和机器学习模型中的自由度 。
标签:数据处理
自由度是统计和工程学的重要概念 , 它通常用于总结在人们在计算样本统计或统计假设检验统计量时所使用的数据量 。 在机器学习中 , 自由度可以指模型中的参数数量 , 例如线性回归模型中的系数数量或深度学习神经网络中的权重数量 。
其中值得关注的地方在于 , 如果机器学习模型中存在过多的自由度(即模型参数) , 那么这个模型将会过拟合训练集 , 这是统计学上的普遍认识 。 可以通过使用正则化技术来克服这种问题 , 比如正则化线性回归 , 以及深度学习神经网络模型中常用的各种正则化手段 。
在本文中 , 你将进一步了解统计学和机器学习中的自由度 。 阅读这篇文章后 , 你会认识到:

  • 自由度通常表示一个模型系统的起控制作用的因子数 。
  • 在统计学中 , 自由度是用于计算某个统计量的数据大小 。
  • 在机器学习中 , 自由度是模型参数的数量 。
让我们开始吧 。
概览
本文分为以下三部分:
一、什么是自由度
二、统计学中的自由度
三、机器学习中的自由度
  1. 线性回归模型自由度
  2. 线性回归误差自由度
  3. 线性回归总自由度
  4. 负自由度
  5. 自由度与过拟合
自由度
自由度表示的是一个系统、模型或一个计算中的控制因子数 。 每个可以变换的独立参数都是d维空间中的一个维度 , 这个d维空间定义了可能影响系统的值的范围 。 某一个观测值或样本点就是该空间中的一个单独点 。
在数学上 , 自由度通常用希腊字母ν表示 , 看起来像小写的“ v” 。 也可以缩写为“ d.o.f”、“ dof”、“ d.f.” , 或直接写作“ df” 。 自由度是统计学和工程学中的术语 , 也通用于机器学习 。
统计学中的自由度
在统计中 , 自由度是用于计算一个统计量时 , 所用的一系列数值中可以变换的个数 。
自由度:大致来说 , 就是计算统计所需的最少数据量 。 实际上 , 它是一个或多个数字 , 来近似数据集中观测值的数量 , 从而确定统计显着性 。
---《Statistics in Plain English》 , 2010年第三版P60
它的计算方法是:计算统计量时使用的独立值的数量减去所计算的统计量的个数 , 即:
自由度 = 独立值的数量 – 统计数量
例如我们有50个独立样本 , 希望计算样本的统计量 , 比如均值 。 我们在计算中使用了全部50个样本 , 并且只有一个统计量 , 因此在这种情况下 , 均值的自由度计算为:
自由度 = 独立值的数量–统计数量
自由度 = 50 – 1
自由度 = 49
自由度通常是数据分布和统计假设检验中需要重点考虑的因素 。 例如 , 通常有针对不同自由度查询临界值的表格(相比起直接计算统计数据 , 既简单又常用) 。 以上是统计学中的自由度 , 那么对于数据拟合的模型(例如在机器学习模型)又如何呢?
机器学习中的自由度
在预测建模中 , 自由度通常是指模型中从数据估计的参数数量 。 这可以涵盖模型的系数以及用于模型误差计算的数据 。
理解这一点的最佳例子是线性回归模型 。
线性回归模型中的自由度
下面考虑数据集中有两个输入变量的线性回归模型 。 对于每个输入变量 , 我们将在模型中给定一个系数 , 也就是说该模型将具有两个参数 。
该模型如下所示 , 其中x1和x2是输入变量 , beta1和beta2是模型参数 。


推荐阅读