新智元|用强化学习量化模型中每个数据点的价值，谷歌发布最新元学习框架「DVRL」【新智元导读】GoogleAI研究院最近的研

文章图片
【新智元导读】GoogleAI研究院最近的研究表明，并不是所有数据样本对于训练都同样有用，特别是对于深度神经网络（DNN）来说。昨日，他们发表了一篇博客，详细叙述了用强化学习评估训练数据的影响。你是否还在使用大规模数据集进行无脑训练呢？
实际上，如果数据集包含低质量或标签不正确的数据，通常可以通过删除大量的训练样本来提高性能。
此外，如果训练集与测试集不匹配(例如，由于训练和测试位置或时间的差异) ，人们还可以通过将训练集中的样本限制为与测试场景最相关的样本，从而获得更高的性能。
由于这些场景的普遍存在，准确量化训练样本的值对于提高真实数据集上的模型性能具有很大的潜力。

文章图片
除了提高模型性能之外，为单个数据分配质量值（qualityvalue）也可以启用新的用例，也可以用来提出更好的数据收集方法。
例如，什么类型的附加数据最有利，并可用于更有效地构建大规模的训练数据集，或者使用标签作为关键字进行网络搜索，过滤掉不太有价值的数据。
量化数据的价值
对于给定的机器学习模型，并不是所有的数据都是相等的。一些数据与手头的任务有更大的相关性，或者相比其他数据有更丰富的信息内容。
那么，到底该如何评估单一数据的价值呢？在完整数据集的粒度上，人们可以简单地在整个数据集上训练一个模型，并将其在测试集上的性能作为数据的价值。
然而估计单一数据的价值要困难得多，特别是对于依赖于大规模数据集的复杂模型，因为在计算复杂度上来说，不可能对一个模型的所有可能的子集进行重新训练和评估。
为了解决这个问题，研究人员探索了基于排列的方法(例如：influencefunctions)和基于博弈论的方法(例如：dataShapley) 。

文章图片
然而，即使是当前最好的方法也远不能适用于大型数据集和复杂模型，而且它们的数据评估性能也是有限的。
同时，基于元学习（metalearning）的自适应权重分配方法已经被开发出来，用来使用元目标（meta-objective）估计权重值。
但是他们并没有优先考虑从高价值的数据样本中学习，而通常是基于梯度下降法学习或者其他启发式方法得到数据价值的映射。这些方法改变了传统的预测模型的动态训练，会导致与单个数据点的价值无关的性能变化。
使用强化学习评估数据（DVRL）
为了推断数据值，我们提出了一种数据值估计器(DVE) ，该估计器用来估计数据值，并选择最有价值的样本来训练预测器模型。
这种操作基本上是不可微的，因此不能使用传统的基于梯度下降的方法。
相反， Google的研究员们建议使用强化学习(RL) ，这样DVE的监督是基于一个奖励Reward ，而这个Reward能用来量化预测器在一个很小但干净的验证集上面的性能。
DVRL：DataValuationUsingReinforcementLearning
在给定状态和输入样本的情况下， Reward指导Policy进行最优化选择，向着最优的数据价值方向进行。

文章图片
GoogleAI研究院以预测模型学习和评估框架为环境，提出了一种新的基于实例推理的机器学习应用方案。

文章图片
图：使用DVRL进行训练。在用准确的Reward训练DVE时，最有价值的样本(用绿点表示)被使用得越来越多，而最无价值的样本(红点)被使用得越来越少。

新智元|用强化学习量化模型中每个数据点的价值，谷歌发布最新元学习框架「DVRL」

推荐阅读

女实习生被赞“最敬业变脸” 被骂哭後抹泪微笑服务

直播吧|转会费预计为8000万欧，Athletic：切尔西接近签下哈弗茨

『小阿说财经』什么时候会落地？，万众期待的降息

ZAKER生活|后悔都来不及，玻璃水可以用自来水代替吗？老司机：这样擦车

亚马逊跨境电商入门完整教程?新手小白如何开始做亚马逊

李洪伙▲两大主演被吐槽，强行加戏引不满，《成化十四年》开播成龙受好评

「钱江晚报小时新闻」可能不是萌，要警惕这种病，新生儿眼珠黑又大

怎样用1000到2000元穷游北京?

军机|大陆军机进入台海，解放军正面回应台军广播，一个细节引岛内热议

新疆众和|新疆众和：拟配股募资不超12亿元

邮政编码的含义邮政编码的含义是什么

董事长|（上市公司人事）国睿科技董事长胡明春辞职

社会新鲜事|他交待道：一会看我喝多了就给我换上水，笑话：跟老板出去吃饭

3DMGAMETB|场景广阔敌人丰富，《致命躯壳》发布玩法预告

常见的穿搭|好一个“长腿精灵”，紫色吊带背心搭配小短裤，这身材让人羡慕

书之影数码|快充、NFC，8+256GB 千元机已降至 1699，还搭载屏下指纹、30W

案件侦办|羁押半生后，张玉环沉冤昭雪的背后真相

妈咪学堂狂暴战命中多少达标，魔兽世界怀旧服狂暴战命中需要多少

法拉第|FF靠借钱活着，法庭文件曝光贾跃亭破产内幕：曾有中东土豪想投资

晨报精选|特朗普被曝10年未缴税