综艺大集合|如何推导高斯过程回归以及深层高斯过程详解


综艺大集合|如何推导高斯过程回归以及深层高斯过程详解
本文插图

【综艺大集合|如何推导高斯过程回归以及深层高斯过程详解】使用不同核函数的高斯过程
高斯过程
像所有其他机器学习模型一样 , 高斯过程是一个简朴猜测的数学模型 。 像神经网络一样 , 它可以用于连续题目和离散题目 , 但是其基础的一些假设使它不太实用 。
但是 , 过去5年左右的时间里 , 尽管没有多少人真正知道它们是什么 , 如何使用或为什么很重要 , 但该领域的研究却令人难以置信 。 像Secondmind这样的初创公司;像卡尔·拉斯穆森(Carl Rasmussen) , 尼尔·劳伦斯(Neil Lawrence)和戴维·杜文诺(David Duvenaud)这样的闻名学者都花了大量时间研究方法和发展该理论 , 这么多大佬都在研究 , 所以它必需有用……对吧?
这种方法被称为克里格法(Kriging) , 在地质统计学中有着悠久的历史 , 但它也源于一个关于神经网络的哲学题目:假如神经网络具有无穷宽 , 你会得到什么?
众所周知 , 在网络宽度无穷大的极限下 , 高斯过程等价于具有参数先验的单层全连接神经网络 。 谷歌Brain的研究得出了无穷宽深度神经网络和高斯过程之间的精确对等 , 但既然DNN如斯成功 , 为什么GP在机器学习社区没有得到更广泛的应用呢?是什么枢纽的棘手的差异 , 导致GP没有被实施在进一步使用?为什么GP比DNN的更差呢?
对于那些不习惯处理长方程的人来说 , 推导和理解高斯过程的数学的确令人生畏 , 但在其核心 , 高斯过程只是对贝叶斯回归的扩展 。
现在 , 让我们进入高斯过程的数学解释!
高斯过程回归(GPR)是一种使用一些独立数据x来猜测一些输出y的方法 , 顾名思义 , 它假设误差是高斯分布的 , 但也假设数据是多元高斯分布的 。
让我们回顾一下 , 高斯分布(也被称为正态分布)的外形像一个钟形曲线 , 类似于我们四周存在的很多现象 。 假如某一现象的外形是高斯分布的 , 那么我们关注的两个特征是其均值和方差 , 以及偏度和峰度 。
例如 , 算术平均值是正态分布的 , 因此 , 假如我们查看从人口中随机抽样的人的均匀身高 , 则会发现这些样本的均值将具有正态分布 。
多元正态(或高斯)分布是将奇特正态分布推广到更高维度 。因此 , 假设我们正在分析相互联系关系的现象-某人的身材又高又瘦的可能性是多少(假如我们有一个人 , 身高和体重的数据集)? 我们可以通过多元分布(或哪种高斯混合模型是特定类)对这些联合依靠关系进行建模 。
现在我们已经回忆了什么是多元高斯分布 , 我们可以留意到高斯分布有一个很好的代数性质是关闭的假如我们想前提化和边缘化一个维 。 在前提作用下的关闭和边缘化意味着这些操纵产生的分布也是高斯分布 , 这使得统计和机器学习中的很多题目变得轻易处理 。
随机变量
随机过程 , 好比高斯过程 , 本质上是一组随机变量 。 此外 , 每个随机变量都有一个对应的指标i , 我们将用这个指标来表示我们的n维多元分布的第i维 。
在探地雷达中 , 我们首先假设一个高斯过程是先验的 , 可以用均值函数m(x)和协方差函数k(x, x’)来表示:
综艺大集合|如何推导高斯过程回归以及深层高斯过程详解
本文插图

更具体地说 , 高斯过程就像一个无穷维的多元高斯分布 , 其中数据集的任何标签集合都是联合高斯分布的 。 在这个模型中 , 我们可以通过选择均值函数和协方差函数来整合函数空间的先验知识 。 我们也可以容易地把独立同分布(先验知识)高斯噪声,?~N(0,σ2),通过乞降的标签标签分布和噪声分布:
综艺大集合|如何推导高斯过程回归以及深层高斯过程详解


推荐阅读