厉害了华为！开源自研算法Disout( 二 ) _Disout

根据定理1，研究人员发现，期望风险和经验风险之间的差距，可以借助特定神经网络和数据集上的经验Rademacher复杂度加以限制。
直接计算ERC比较难，因此通常在训练阶段使用ERC的上限或近似值，来获得具有更好泛化的模型。
了解完泛化理论，就来看下特征图扰动。
研究人员通过减少网络的ERC来学习特征图的扰动值，而不是固定扰动值。
通常，对具有输入数据xi的第l层的输出特征fL(xi)所采用的干扰操作可以表示为：

文章插图

其中，εli是特征图上的扰动。
上面的等式中扰动的形式是在ERC指导下自行学习得到的。由于ERC是通过网络最后一层的输出计算出来的，直接使用它来指导扰动将非常困难。
因此，研究人员使用以下定理，通过网络中间层的输出来间接表达网络的ERC：
定理 2 用Kl[k;:]表示权重矩阵Kl的第k行 ||?||p是向量的 p-norm 。假设|| Kl[k;:] ||p ≤ Bl，网络输出的ERC 可以被中间特征的ERC限制：

文章插图

o 和 f 分别是在激活函数之前和之后的特征图。令：

文章插图

则：

文章插图

那么，最优的扰动，就可以通过求解下式得到：

文章插图

直观地, 过于剧烈的扰动将破坏原始的特征并降低网络的表示能力；而过小的扰动不能很好地起到正则化效果。
算法如下所示：

文章插图

实习生一作，华为诺亚实验室出品这篇论文，一共有7名研究人员，分别来自北京大学、华为诺亚和悉尼大学，核心团队来自华为诺亚实验室。

文章插图

一作是北京大学的唐业辉，这一研究是他在华为诺亚实验室实习期间完成。
二作是王云鹤，华为诺亚方舟实验室技术专家，也是唐业辉实习时的导师。
毕业于北京大学，在相关领域发表学术论文40余篇，包含NeurIPS、ICML、CVPR、ICCV、TPAMI、AAAI、IJCAI等。
主要从事边缘计算领域的算法开发和工程落地，研究领域包含深度神经网络的模型裁剪、量化、蒸馏和自动搜索等。
其他作者有来自华为诺亚实验室的许奕星、许春景、北京大学的许超等人。
如果你对这项研究感兴趣，请收好传送门：
开源链接：
https://github.com/huawei-noah/Disout
论文链接：
https://www.aaai.org/Papers/AAAI/2020GB/AAAI-TangY.402.pdf