CNN网络中卷积核初始化时使用正交阵的好处是啥

【CNN网络中卷积核初始化时使用正交阵的好处是啥】 这应该是最近比较流行的提法,也看过一些论文,说一下浅显的理解: 目前有一种对网络的新的理解,认为网络学习到的weight之间有很大的相关性或者说冗余,从信息熵的角度来看,网络的表达能力因为这个现象受到了很大的限制,导致很容易出现overfit,因此有人提出如果可以让这些weight不那么相关就可以降低overfit,一种做法就是正交初始化,另外一种就是加明确的正则化来使得学习到的weight之间的相关性尽量小。另外还有一些研究认为学习到的feature之间也有这个现象,对一些类似于分类问题不那么好,也在做去相关的事。个人理解,有错误之处请指正

■网友
可以体会一下SVDnet、cosine归一化、层旋转这三篇

■网友
初始化不都是xavier么?


    推荐阅读