科技女王范儿 一文读懂机器学习( 二 )


科技女王范儿 一文读懂机器学习
文章图片
一些重要的非监督学习方法:
聚类可视化和降维关联性规则Reinforcementlearning强化学习强化学习这是在监督学习和无监督学习之间的某个地方 。 当答案错误时 , 系统会告知该算法 , 但不会告诉你如何更正该算法 。 它必须探索并尝试各种可能性 , 直到找到正确的答案 。 强化学习有时被称为与批评者一起学习 , 因为该监视器可以对答案进行评分 , 但不能提出改进建议 。
科技女王范儿 一文读懂机器学习
文章图片
机器学习的过程
数据收集和准备:通常很难收集 , 要么是因为它需要进行很多测量 , 要确保它是干净的;它没有重大错误 , 缺少数据等 , 需要考虑数据量 。 机器学习算法需求大量的数据 , 最好没有太多的噪音 , 但是增加了数据集的大小增加了计算成本 , 并且用足够的数据达到了最佳效果而没有过多的计算开销通常是不可能的 。 特征选择:这个始终需要事先了解问题和数据;算法根据给定的数据集 , 选择合适的算法 。 参数和模型选择:对于许多算法 , 有一些参数可以必须手动设置 , 或者需要进行实验才能确定适当的值 。 训练给定数据集 , 算法和参数:训练应该简单地使用计算资源以建立数据模型以进行预测新数据的输出 。 评估:在部署系统之前 , 需要对其进行测试和评估以确保其性能,对未经训练的数据的准确性计算 。如何衡量一个模型的好坏
learning的目的是更好地预测输出 。 知道算法成功学习的唯一真实方法是将预测与已知的目标标签进行比较 , 这是针对监督学习进行训练的方式 。 这表明你可以做的一件事就是仅查看算法对训练集trainset造成的错误error 。 但是 , 我们希望算法能推广到训练集中没有看到的数据 , 并且显然我们无法使用训练集对其进行测试(因为数据已经被看见过了) 。 因此 , 我们还需要一些不同的数据(一个测试集testset)来对其进行测试 。 我们通过输入测试集(input,target)对到训练好的网络中 , 并将预测的输出与目标进行比较 , 不做权重或其他参数修改:我们使用它们来确定算法的性能怎么样 。 这样做唯一的问题是它减少了我们可用于训练的数据量 , 但这是我们必须忍受的 。
Overfitting但实际情况要比上面的描述要复杂 , 我们可能还想要了解算法在学习过程中的一般性:我们需要确保进行足够的训练以使算法有很好的一般性 。 实际上 , 过度训练的危险与训练不足中的危险一样大 。 在大多数机器学习算法中 , 可变性的数量是巨大的-对于神经网络 , 权重很多 , 并且每个权重都可以变化 。 因此我们需要小心:如果训练时间太长 , 那么我们将过度拟合数据 , 这意味着我们已经学习了数据中的噪声和不准确性 。 因此 , 我们学习的模型太复杂了 , 无法推广 。
科技女王范儿 一文读懂机器学习
文章图片
在学习过程中有两个不同的点 。 在图的左侧 , 曲线很好地拟合了数据的总体趋势(已将其推广到基本的通用函数) , 但是训练误差不会接近于零 。 但是右图 , 随着网络的不断学习 , 最终将产生一个更复杂的模型 , 该模型具有较低的训练误差(接近于零) , 这意味着它已经记住了训练示例 , 包括其中的任何噪声成分 , 因此已经过拟合训练数据 。
验证集的出现
我们想在算法过拟合之前停止学习过程 , 这意味着我们需要知道它在每个时间步上的推广程度 。 我们不能为此使用训练数据 , 因为它是用来训练参数的 , 我们不会检测到过度拟合;我们也不能使用测试数据 , 它是用来看模型性能的 , 我们将其保存为最终测试 。 因此 , 我们需要用于此目的的第三组数据 , 称为验证集validationset , 因为到目前为止我们正在使用它来验证学习 , 这被称为统计中的交叉验证cross-validation 。 这是模型选择modelselection的一部分:为模型选择正确的参数 , 以便尽可能地泛化 。


推荐阅读