厉害了华为!开源自研算法Disout( 二 )


根据定理1,研究人员发现,期望风险和经验风险之间的差距,可以借助特定神经网络和数据集上的经验Rademacher复杂度加以限制 。
直接计算ERC比较难,因此通常在训练阶段使用ERC的上限或近似值,来获得具有更好泛化的模型 。
了解完泛化理论,就来看下特征图扰动 。
研究人员通过减少网络的ERC来学习特征图的扰动值,而不是固定扰动值 。
通常,对具有输入数据xi的第l层的输出特征fL(xi)所采用的干扰操作可以表示为:

厉害了华为!开源自研算法Disout

文章插图
 
其中,εli是特征图上的扰动。
上面的等式中扰动的形式是在ERC指导下自行学习得到的 。由于ERC是通过网络最后一层的输出计算出来的,直接使用它来指导扰动将非常困难 。
因此,研究人员使用以下定理,通过网络中间层的输出来间接表达网络的ERC:
定理 2 用Kl[k;:]表示权重矩阵Kl的第k行 ||?||p是向量的 p-norm 。假设|| Kl[k;:] ||p ≤ Bl,网络输出的ERC 可以被中间特征的ERC限制:
厉害了华为!开源自研算法Disout

文章插图
 
o 和 f 分别是在激活函数之前和之后的特征图 。令:
厉害了华为!开源自研算法Disout

文章插图
 
则:
厉害了华为!开源自研算法Disout

文章插图
 
那么,最优的扰动,就可以通过求解下式得到:
厉害了华为!开源自研算法Disout

文章插图
 
直观地, 过于剧烈的扰动将破坏原始的特征并降低网络的表示能力;而过小的扰动不能很好地起到正则化效果 。
算法如下所示:
厉害了华为!开源自研算法Disout

文章插图
 
实习生一作,华为诺亚实验室出品这篇论文,一共有7名研究人员,分别来自北京大学、华为诺亚和悉尼大学,核心团队来自华为诺亚实验室 。
厉害了华为!开源自研算法Disout

文章插图
 
一作是北京大学的唐业辉,这一研究是他在华为诺亚实验室实习期间完成 。
二作是王云鹤,华为诺亚方舟实验室技术专家,也是唐业辉实习时的导师 。
毕业于北京大学,在相关领域发表学术论文40余篇,包含NeurIPS、ICML、CVPR、ICCV、TPAMI、AAAI、IJCAI等 。
主要从事边缘计算领域的算法开发和工程落地,研究领域包含深度神经网络的模型裁剪、量化、蒸馏和自动搜索等 。
其他作者有来自华为诺亚实验室的许奕星、许春景、北京大学的许超等人 。
如果你对这项研究感兴趣,请收好传送门:
开源链接:
https://github.com/huawei-noah/Disout
论文链接:
https://www.aaai.org/Papers/AAAI/2020GB/AAAI-TangY.402.pdf




推荐阅读