DeepTech深科技|或能识别从未见过的事物，一种新方法或让AI模型拥有“联想”力( 二 ) 一种新的方法正在让人工智能模型获得人

因此，仅仅用这个超精简数据集对人工智能模型进行训练，就可以达到与用MNIST所有图像进行训练的模型几乎一致的识别精度。

文章图片
图|MNIST数据集样例

文章图片
图|“蒸馏”后的MNIST精简数据集。以上10张图是从MNIST所含6万张图像中提纯出的，可以用于训练人工智能模型，并且它们在识别手写数字时拥有94%的准确性。
伊利亚和导师从中受到启发，并且认为可以在TongzhouWang的方法上更进一步——既然可以将6万张图像压缩到10张，那么为什么不能将它们压缩到5张或更少呢？一旦实现，就意味着，通过区区几张图象的训练，人工智能模型就能掌握从0到9这10个数字的各种手写数字图片，从而实现前面所说的N大于M 。
伊利亚很快发现，想要达到这个效果的诀窍就是创建混合有多个数字特征的图像，然后为它们打上“软标签（让一个数据点同时成为多个类别成员的矢量表示）” ，再来用这些样本训练人工智能模型（类似于前文的马+犀牛混合体）。
“你可以想象一下数字3 ，它看起来有点像8 ，但一点都不像7 。 ”伊利亚说。

文章图片
“软标签的目的在于标注这些共同的特征，进而以这种方式增加信息密度和维度。因此，相比于直接告诉模型这个图像是3 ，我们会说，这个图像有60%可能是3 ， 30%可能是8 ， 10%可能是0 。 ”使用这种数据训练出的模型，基本可以达到与常规训练方式一样的精度。
“少于一个”样本学习的局限性当伊利亚和导师成功地使用软标签在MNIST上实现“少于一个”样本学习后，他们开始思考这个方法能否用于更广阔的领域。人工智能模型从小样本中可以识别出的类别数量是否存在上限？
答案是否定的。
从理论上来看，使用精心设计的软标签，甚至只用两个示例就可以承载任意数量的类别信息。伊利亚说：“通过两个数据点，你就可以分离出一千个，一万个，甚至是一百万个类别。 ”
伊利亚和导师通过纯数学方式的推导，在论文中证明了这一点。他们使用一种最简单的机器学习算法——K-近邻算法（kNN）来表述这一概念，该算法使用图形方法来为对象分类。值得注意的是，他们在kNN算法的基础上进行了开发，并将最终的算法称为SLaPkNN（soft-labelprototypekNearestNeighbors）。
在进一步说明之前，有必要以水果分类任务为例，简单说明kNN算法的核心逻辑。
假设我们要训练kNN模型识别苹果和橙子，你必须先确定每个水果的特征，这里以颜色（X轴）、重量（Y轴）为例。这样你就可以将多个苹果和橙子的信息输入kNN模型。
kNN算法会将所有数据点绘制在一张二维图表上，并在苹果和橙子分布点的中间地带绘制边界线。

文章图片
图|kNN算法原理。由图可见，坐标轴上分布着红苹果、青苹果和橙子的数据点。当模型需要判定黑色点属于哪种水果时，它会依据蓝色框选区域内的色彩分布，将比例最大的橙色判断为“邻近” ，进而将黑色点归类为橙子。
为了将kNN算法应用于“少于一个”样本学习，伊利亚和导师创建了一系列微型的合成数据集，并精心设计了它们的软标签。
然后，他们让kNN算法绘制了它从样本中看到的边界线，发现它成功地将样本分成了比数据点更多的类别。

DeepTech深科技|或能识别从未见过的事物，一种新方法或让AI模型拥有“联想”力( 二 )

推荐阅读

口腔溃疡的中医药膳治疗方法

没事|澳洲山火令各地干旱，断水小镇居民无奈：“有啤酒就没事”

男人是在分手后多久，开始后悔的？

男子自曝猥亵女学生，警方：博眼球编造不实言论已行拘

于欢|美女主持人竟变身土味精神小妹？绝对是史上最不正经的女主持人

窗帘颜色的选择常识介绍

小孩便秘吃什么药最好

超2亿美元合作辉瑞/Dewpoint共同开发DM1潜在疗法

像向日葵一样|遭到康熙帝嫉妒，死后不得安宁，此人差点代替康熙成为清朝皇帝

漫威里面的组织,漫威里的组织有哪些-

霓虹|竟还乖乖排队让“坏人”量体温，日本警察搜查据点

移动|西安地铁拟禁止使用移动充电物品引发网友热议

离骚共计多少字

数字赋能，共创未来——中外人士热情期待世界互联网大会·互联网发展论坛召开

「」程武兼任阅文CEO后的内部公开信：紧密联动、发展升维

咸阳@当“新冠”遇上“汉坦”看咸阳这家医院如何接招

|马云、任正非……商界大佬为何扎堆卸任？

华为亮相北京车展，多合一电驱动系统DriveONE引围观

娱乐圈|娱乐圈的10位“半老徐娘”，长腿美背、旷世容颜，越老越漂亮

京东天猫角逐激烈，小象优品、寺库等C位出道，这届618很激烈！