根据定理1,研究人员发现,期望风险和经验风险之间的差距,可以借助特定神经网络和数据集上的经验Rademacher复杂度加以限制 。
直接计算ERC比较难,因此通常在训练阶段使用ERC的上限或近似值,来获得具有更好泛化的模型 。
了解完泛化理论,就来看下特征图扰动 。
研究人员通过减少网络的ERC来学习特征图的扰动值,而不是固定扰动值 。
通常,对具有输入数据xi的第l层的输出特征fL(xi)所采用的干扰操作可以表示为:
文章插图
其中,εli是特征图上的扰动。
上面的等式中扰动的形式是在ERC指导下自行学习得到的 。由于ERC是通过网络最后一层的输出计算出来的,直接使用它来指导扰动将非常困难 。
因此,研究人员使用以下定理,通过网络中间层的输出来间接表达网络的ERC:
定理 2 用Kl[k;:]表示权重矩阵Kl的第k行 ||?||p是向量的 p-norm 。假设|| Kl[k;:] ||p ≤ Bl,网络输出的ERC 可以被中间特征的ERC限制:
文章插图
o 和 f 分别是在激活函数之前和之后的特征图 。令:
文章插图
则:
文章插图
那么,最优的扰动,就可以通过求解下式得到:
文章插图
直观地, 过于剧烈的扰动将破坏原始的特征并降低网络的表示能力;而过小的扰动不能很好地起到正则化效果 。
算法如下所示:
文章插图
实习生一作,华为诺亚实验室出品这篇论文,一共有7名研究人员,分别来自北京大学、华为诺亚和悉尼大学,核心团队来自华为诺亚实验室 。
文章插图
一作是北京大学的唐业辉,这一研究是他在华为诺亚实验室实习期间完成 。
二作是王云鹤,华为诺亚方舟实验室技术专家,也是唐业辉实习时的导师 。
毕业于北京大学,在相关领域发表学术论文40余篇,包含NeurIPS、ICML、CVPR、ICCV、TPAMI、AAAI、IJCAI等 。
主要从事边缘计算领域的算法开发和工程落地,研究领域包含深度神经网络的模型裁剪、量化、蒸馏和自动搜索等 。
其他作者有来自华为诺亚实验室的许奕星、许春景、北京大学的许超等人 。
如果你对这项研究感兴趣,请收好传送门:
开源链接:
https://github.com/huawei-noah/Disout
论文链接:
https://www.aaai.org/Papers/AAAI/2020GB/AAAI-TangY.402.pdf
推荐阅读
- dvc-an20是什么型号是5g手机吗?华为DVC-AN20是什么型号?
- 太厉害了!总算有人把“串行通信”的基础知识讲的明明白白了
- 华为|5399元!华为MateBook 14非触屏版今日开售:11代酷睿i5+2K屏
- 华为|5599元起!华为Mate 40 Pro 4G版官方降价:搭载5nm麒麟9000
- 什么车贬值最厉害?
- 华为传输软件叫什么?
- 刘涛|41岁的刘涛直播倒立,灵活度不输年轻人,娱乐圈明星健身有多厉害
- 运动|27岁女子坚持跳绳减肥,确诊甲状腺癌,医生惋惜:运动前1习惯害了她
- 到底什么样的行业赚钱厉害?
- 华为实验演示:利用路由器的接口配置VRRP