新智元|用强化学习量化模型中每个数据点的价值,谷歌发布最新元学习框架「DVRL」


新智元|用强化学习量化模型中每个数据点的价值,谷歌发布最新元学习框架「DVRL」
文章图片
【新智元导读】GoogleAI研究院最近的研究表明 , 并不是所有数据样本对于训练都同样有用 , 特别是对于深度神经网络(DNN)来说 。 昨日 , 他们发表了一篇博客 , 详细叙述了用强化学习评估训练数据的影响 。你是否还在使用大规模数据集进行无脑训练呢?
实际上 , 如果数据集包含低质量或标签不正确的数据 , 通常可以通过删除大量的训练样本来提高性能 。
此外 , 如果训练集与测试集不匹配(例如 , 由于训练和测试位置或时间的差异) , 人们还可以通过将训练集中的样本限制为与测试场景最相关的样本 , 从而获得更高的性能 。
由于这些场景的普遍存在 , 准确量化训练样本的值对于提高真实数据集上的模型性能具有很大的潜力 。
新智元|用强化学习量化模型中每个数据点的价值,谷歌发布最新元学习框架「DVRL」
文章图片
除了提高模型性能之外 , 为单个数据分配质量值(qualityvalue)也可以启用新的用例 , 也可以用来提出更好的数据收集方法 。
例如 , 什么类型的附加数据最有利 , 并可用于更有效地构建大规模的训练数据集 , 或者使用标签作为关键字进行网络搜索 , 过滤掉不太有价值的数据 。
量化数据的价值
对于给定的机器学习模型 , 并不是所有的数据都是相等的 。 一些数据与手头的任务有更大的相关性 , 或者相比其他数据有更丰富的信息内容 。
那么 , 到底该如何评估单一数据的价值呢?在完整数据集的粒度上 , 人们可以简单地在整个数据集上训练一个模型 , 并将其在测试集上的性能作为数据的价值 。
然而估计单一数据的价值要困难得多 , 特别是对于依赖于大规模数据集的复杂模型 , 因为在计算复杂度上来说 , 不可能对一个模型的所有可能的子集进行重新训练和评估 。
为了解决这个问题 , 研究人员探索了基于排列的方法(例如:influencefunctions)和基于博弈论的方法(例如:dataShapley) 。
新智元|用强化学习量化模型中每个数据点的价值,谷歌发布最新元学习框架「DVRL」
文章图片
然而 , 即使是当前最好的方法也远不能适用于大型数据集和复杂模型 , 而且它们的数据评估性能也是有限的 。
同时 , 基于元学习(metalearning)的自适应权重分配方法已经被开发出来 , 用来使用元目标(meta-objective)估计权重值 。
但是他们并没有优先考虑从高价值的数据样本中学习 , 而通常是基于梯度下降法学习或者其他启发式方法得到数据价值的映射 。 这些方法改变了传统的预测模型的动态训练 , 会导致与单个数据点的价值无关的性能变化 。
使用强化学习评估数据(DVRL)
为了推断数据值 , 我们提出了一种数据值估计器(DVE) , 该估计器用来估计数据值 , 并选择最有价值的样本来训练预测器模型 。
这种操作基本上是不可微的 , 因此不能使用传统的基于梯度下降的方法 。
相反 , Google的研究员们建议使用强化学习(RL) , 这样DVE的监督是基于一个奖励Reward , 而这个Reward能用来量化预测器在一个很小但干净的验证集上面的性能 。
DVRL:DataValuationUsingReinforcementLearning
在给定状态和输入样本的情况下 , Reward指导Policy进行最优化选择 , 向着最优的数据价值方向进行 。
新智元|用强化学习量化模型中每个数据点的价值,谷歌发布最新元学习框架「DVRL」
文章图片
GoogleAI研究院以预测模型学习和评估框架为环境 , 提出了一种新的基于实例推理的机器学习应用方案 。
新智元|用强化学习量化模型中每个数据点的价值,谷歌发布最新元学习框架「DVRL」
文章图片
图:使用DVRL进行训练 。 在用准确的Reward训练DVE时 , 最有价值的样本(用绿点表示)被使用得越来越多 , 而最无价值的样本(红点)被使用得越来越少 。


推荐阅读