要想理解这一点,可以再次想象平面上的一条曲线,其中x坐标代表一个像素的颜色,y坐标代表一个图像标签 。
由于曲线是平滑的,如果你稍微修改一下像素的颜色,沿着曲线移动一小段距离,相应的预测值只会有少量的变化 。另一方面,对于一条锯齿状的曲线,X坐标(颜色)的微小变化会导致Y坐标(图像标签)的巨大变化,长颈鹿可以变成沙鼠 。
Bubeck和Sellke在论文中证明,平滑拟合高维数据点不仅需要n个参数,而且需要n×d个参数,其中d是输入的维度(例如,784个像素的图像输入维度为784) 。
换句话说,如果你想让一个网络稳健地记住它的训练数据,过度参数化不仅是有帮助的,而且是必须的 。该证明依赖于一个关于高维几何的事实,即随机分布在球体表面的点几乎都是彼此相距一个直径的距离,点与点之间的巨大间隔意味着用一条光滑的曲线来拟合它们需要许多额外的参数 。
文章插图
耶鲁大学的Amin Karbasi称赞论文中的证明是非常简洁的,没有大量的数学公式,而且它说的是非常通用的内容 。
这一证明结果也为理解为什么扩大神经网络的简单策略如此有效提供了一个新的途径 。
其他研究揭示了过量参数化有帮助的其他原因 。例如,它可以提高训练过程的效率,也可以提高网络的泛化能力 。
虽然我们现在知道过量参数化对鲁棒性是必要的,但还不清楚鲁棒性对其他事情有多大必要 。但通过将其与过度参数化联系起来,新的证明暗示鲁棒性可能比人们想象的更重要,这也可能为其他解释大模型的益处研究做铺垫 。
鲁棒性确实是泛化的一个先决条件,如果你建立了一个系统,只是轻微地扰动它,然后它就失控了,那是什么样的系统?显然是不合理的 。
所以,Bubeck认为这是一个非常基础和基本的要求 。
参考资料:
https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neural-networks-do-better-20220210/
推荐阅读
- 热血传奇|热血传奇:逍遥扇究竟是什么样子?为何大多数玩家都觉得它上档次?
- 考研|考研错过21届就业,985院校女大学生大哭:为何就业这么难?
- 翡翠|判定翡翠的价值,无论质地如何,是不是越大价值越高?
- |十几个人野钓,为何普遍空军回家?可能你也犯过这样的错误!
- |明明已经洗了头,为何头发还出油?告别油发,不妨做好这3件事
- 古人为什么跪着坐?古代人坐姿为何是跪
- 国企|单位正职为何会惧怕副职?这三点告诉你答案
- 为何死后的大象不能碰?
- 卫生间为何要防水防潮?
- 厨房为何要远离卫生间