津爱改装车|基于统一正则散列算法的多模数据分析 1234更多下一页--

摘要【津爱改装车|基于统一正则散列算法的多模数据分析】基于散列的搜索算法为大规模相似度搜索落地提供了一个非常有前途的方法。为了获得紧密的哈希码，最近的研究试图通过自动学习数据的哈希函数来实现。本论文，通过多模数据的内容学习哈希函数，提出了一个基于增强统一正则化框架的新奇的多模哈希函数学习方法，称作统一正则化哈希（CRH）。通过求解 DC（凸函数的差）程序来学习哈希码的每个比特的哈希函数，而对多个比特的学习则通过升压过程进行，从而可以依次减小哈希函数引入的偏差。我们在两个可公开获得的数据集上，将 CRH 与两种最新的多模式哈希函数学习方法进行了经验比较。
介绍最近邻搜索，又名相似度搜索在很多应用中扮演了很重要的角色，包括文档检索、目标识别、重复检测等。围绕最近邻搜索提出的所有算法中基于散列的算法在最近几年引起了相当大的兴趣。散列算法最大的优势在于使用二进制的哈希代码用于信息检索，不仅减小了存储需求而且具有很高的计算效率。为了保持数据的相似性，在过去几十年中开发了一系列被称为局部敏感性散列算法（LSH）， LSH 的核心在于将数据转换到哈希仓库中，然后通过转换后的数据碰撞反应数据之间的相关性，但是为了保证获取可靠的性能， LSH 在实际运用中经常产生很长的哈希代码。该缺点主要归因于它们的数据无关性质，该性质不能非常准确地捕获哈希码中的数据特征。此外，在许多应用中无法使用某些通用距离或相似性度量轻松定义邻居。因此，过去几年出现了新的研究趋势，通过自动从数据中学习哈希函数，我们将此新趋势称为哈希函数学习（HFL）。
算法
实验在实验中，对比了 CRH 算法和两种最先进的多模哈希算法，分别是 CMSSH 和 CVH 算法。数据集采用 Wiki 和 Flickr 网站的公开数据， Wiki 包括 2866 对图像-文字，而 Flickr 包括 186577 个数据对。在每一对数据中，文字描述了图像中的活动，人物信息，同时，图像也尽可能的接近文字内容。在 Wiki 数据集上，图像使用 128 维 SIFT 特征向量表示，标签则由 LDA 模型训练出来的 10 个分类表示，每一对数据都由一个语义标签表示。本实验使用 80%的数据用于训练， 20%的数据用于查询。而 Flickr 数据集则使用 500 维的向量表示图像，标签同样使用 LDA 模型的 10 个话题分类。
Wiki 数据集实验结果如下：
表格 1：不同算法在 Wiki 数据集上查询结果
从上述表格可以看出，不管使用哪种哈希编码长度，以及是基于图片搜索文字，还是基于文字搜索图片的场景， CRH 的性能效果要明显优于 CVH 和 CMSSH 的效果。同时，我们又进一步对三种算法的不同维度信息进行了统计对比，结果如下:
图 1 Wiki 数据集结果对比
Flickr 数据集结果如下：
表格 2 不同算法在 Wiki 数据集上查询结果
与 Wiki 数据集结果类似，使用 CRH 的搜索算法仍然由于其他两种目前比较前沿的 CVH 和 CMSSH 算法。

津爱改装车|基于统一正则散列算法的多模数据分析

推荐阅读

Intel|12代酷睿升级LGA1700插槽网友实际数了一遍：真是1700个针脚

小米手环4|8天出货量100万支！小米手环4成全球最畅销手环

江苏卫视|北京卫视和江苏卫视联播，本以为这剧会火，结果收视表现出乎意料

「十渡车神」平行进口车经历生死大考

潮流尚拍精选|还是穿得“简约风”些更帅气，男生衬衫

红茶是煮还是泡,岩茶也是普洱茶可以煮

如歌岁月|任正非谈汽车自主创新：我不反对李书福！网友：发动机不重要吗？

ChristteCYChua典雅太|杨幂很挑食，吴彦祖接地气，看到吴京：要不，当明星们在片场吃饭

游戏小怪兽|王者荣耀：手残意识好？那就选择这些英雄上分吧

多特体育|宏远打“野球”狂胜150分！国家队欺负青年队，杜锋真不给面子

#星座听语#痴情眷恋，难以舍弃，3星座不再退缩，挽回旧爱再相守，5月下旬

纵相新闻|西媒高呼"中国市场很神奇"，哈萨克斯坦称中国进博会代表了稳定和吸引力 | 外媒看进博

青岩梦罢|丁当节目接长发，本以为效果一般，看清效果后，粉丝都快认不出了

[绿豆]男人想要长寿，5件“耗阳”的事要“舍弃”，一些人表示很难做到

领导打压下属，最常用这五种手段，一招比一招毒

「」张杰的一首歌, 竟成高考神曲, 网友: 点燃无数高考学生的激情

晴晴侃游戏|再也不怕刚枪，和平精英：主副武器怎么选？最实用的搭配

结局|中国古代唯一女状元，才貌双全官居丞相，却成他人点心，结局悲惨

上观新闻|收到“老板”指令转账汇款？要当心了！冒充老板骗局再次卷土重来

李小璐送闺蜜1599朵玫瑰|患难见真情!李小璐送闺蜜1599朵玫瑰 1599朵的寓意了解下