新智元华人博士提出原型对比学习，非监督学习效果远超MoCo和SimCLR

本文插图

新智元报道
来源：einstein.ai
编辑：白峰
【新智元导读】继MoCo和SimCLR之后非监督学习的又一里程碑！Salesforce的华人科学家（Junnan Li）介绍了一种新的非监督式神经网络学习方法，这种方法能够从数百万个未标记的图像中训练深层神经网络，让我们离机器智能又进了一步。
本文提出的原型对比学习(PCL)，统一了非监督式学习的两个学派: 聚类学习和对比学习。 PCL 推动了机器学习和人工智能的圣杯--非监督式学习技术的进步，并向无需人类指导的机器智能迈出了重要的一步。

本文插图

为什么是非监督学习
深层神经网络在许多方面取得了前所未有的进展，比如图像分类和目标检测。大部分的进步都是由监督式学习 / 标签模式驱动的，得到这么好的性能很大程度上依赖于大量带有人工注释的标签(例如 ImageNet) 。
然而，手工标注的成本是十分昂贵的，很难扩大规模。另一方面，互联网上存在着几乎无限量的未标记图片。非监督式学习是唯一适合开发未标记数据这个大金矿的方法。
首先，让我们来谈谈两个流行的非监督式学习算法学派: 聚类和对比学习。
聚类:机器学习中最常见的非监督式学习任务之一。
它是将数据集划分为若干个组的过程，聚类算法将相似的数据点组合在一起，而不同的数据点组合在不同的组中。
在所有的聚类方法中， K 均值是最简单和最流行的方法之一。它是一个迭代算法，目的是将数据集划分为 k 组(聚类)，其中每个数据点只属于一类，聚类中每个数据点和聚类质心(属于该聚类的所有数据点的算术平均值)平方距离之和最小。

本文插图

对比学习: 非监督式学习的一个新兴学派
随着深层神经网络的出现，对比非监督式学习已经成为一个流行的方法学派，它训练深层神经网络而不用标签。经过训练的网络能够从图像中提取有意义的特征(表示)，这将提高其他下游任务的性能。
对比非监督式学习主要是从数据本身学习有用的表征，所以也称为对比自我监督学习。
许多最先进的对比学习方法(例如 MoCo 和 SimCLR )都是基于实例辨别的任务。
实例鉴别训练一个网络来分类两个图像是否来自同一个源图像，如图 1(a)所示。该网络(例如 CNN 编码器)将每个图像裁剪投影到一个嵌入中，并将同源的嵌入彼此拉近，同时将不同源的嵌入分开。通过解决实例识别任务，期望网络学习到一个有用的图像表示。

本文插图

实例鉴别在无监督表征学习中表现出了良好的性能。然而，它有两个局限性。
首先，利用低层线索就可以区分不同的实例，因此网络不一定学习到有用的语义知识。
其次，如图 1(b)所示，来自同一个类(cat)的图像被视为不同的实例，它们的嵌入被推开。这是不可取的，因为具有相似语义的图像应该具有相似的嵌入。为了解决上述缺点，我们提出了一种无监督表征学习的新方法: 原型对比学习(PCL) 。
原型对比学习: 统一对比学习和聚类学习
原型对比学习是无监督表征学习的一种新方法，它综合了对比学习和聚类学习的优点。
在 PCL 中，我们引入了一个「原型」作为由相似图像形成的簇的质心。我们将每个图像分配给不同粒度的多个原型。训练的目标是使每个图像嵌入更接近其相关原型，这是通过最小化一个 ProtoNCE 损失函数来实现的。

新智元华人博士提出原型对比学习，非监督学习效果远超MoCo和SimCLR

推荐阅读

女实习生被赞“最敬业变脸” 被骂哭後抹泪微笑服务

直播吧|转会费预计为8000万欧，Athletic：切尔西接近签下哈弗茨

『小阿说财经』什么时候会落地？，万众期待的降息

ZAKER生活|后悔都来不及，玻璃水可以用自来水代替吗？老司机：这样擦车

亚马逊跨境电商入门完整教程?新手小白如何开始做亚马逊

李洪伙▲两大主演被吐槽，强行加戏引不满，《成化十四年》开播成龙受好评

「钱江晚报小时新闻」可能不是萌，要警惕这种病，新生儿眼珠黑又大

怎样用1000到2000元穷游北京?

军机|大陆军机进入台海，解放军正面回应台军广播，一个细节引岛内热议

新疆众和|新疆众和：拟配股募资不超12亿元

邮政编码的含义邮政编码的含义是什么

董事长|（上市公司人事）国睿科技董事长胡明春辞职

社会新鲜事|他交待道：一会看我喝多了就给我换上水，笑话：跟老板出去吃饭

3DMGAMETB|场景广阔敌人丰富，《致命躯壳》发布玩法预告

常见的穿搭|好一个“长腿精灵”，紫色吊带背心搭配小短裤，这身材让人羡慕

书之影数码|快充、NFC，8+256GB 千元机已降至 1699，还搭载屏下指纹、30W

案件侦办|羁押半生后，张玉环沉冤昭雪的背后真相

妈咪学堂狂暴战命中多少达标，魔兽世界怀旧服狂暴战命中需要多少

法拉第|FF靠借钱活着，法庭文件曝光贾跃亭破产内幕：曾有中东土豪想投资

晨报精选|特朗普被曝10年未缴税