模型|看图说话最强“王者”？微软发布最新机器学习模型，助视障人士“冲浪”网络图像|王者|视觉|

_原题为 看图说话最强“王者”？微软发布最新机器学习模型，助视障人士“冲浪”网络

文章图片

智东西（公众号：zhidxcom）
编 | 子佩
智东西10月20日消息，轻轻滑动手指，我们能轻松地阅读文字、图片、浏览视频，获取各种各样的信息，这一切都依赖于我们的视觉感官。但对于视力有障碍的人而言，却没有那么简单。
【模型|看图说话最强“王者”？微软发布最新机器学习模型，助视障人士“冲浪”网络】早在2017年，微软就发布了移动应用程序Seeing AI ，试图分析周围环境并通过语音为视力缺陷者带来帮助。基于神经网络，这款应用不仅可以翻译文本，而且可以识别人物和货币、扫描产品条形码，对整个场景或者导入的图像进行简单的描述。
而9月28日，微软在arXiv平台上发表了有关自动生成图像描述机器学习模型的论文《基于视觉词汇预训练超越人类表现的新颖的对象描述（VIVO: Surpassing Human Performance in Novel Object Captioning with Visual Vocabulary Pre-Training）》，性能超2017版Seeing AI模型两倍，并将运用在Seeing AI以及旗下众多软件中。
论文链接：https://arxiv.org/abs/2009.13682

文章图片

一、基于弱监督学习，跨越文本图像两大维度
基于图像生成文字描述，对于人类这是个很简单的问题，但对于机器却非常有挑战性。因为它既需要理解图像的内容生成标签，又需要将这种单个标签串在一起，转化为人类可以理解的自然语言，结合了计算机视觉和自然语言处理两大人工智能领域的热点问题。
微软的研究人员提出了视觉词汇预训练（visual vocabulary pre-training ，简称VIVO）的技术，即通过弱监督学习方法对图像描述模型进行预训练，其中包括两个阶段：预训练和微调推断。

文章图片

基于大型Transformer神经网络， VIVO可以在没有文本标签的数据上对文本和图像的多模态进行预训练，令模型学会识别图像中的常见物体和生物并标记它们，并建立起将文本和图片联系起来的视觉词表。
视觉图表就是一个图像和文本的联合特征空间，语义相近的词会聚类在一起，例如金毛和牧羊犬、手风琴和乐器等。

文章图片

Azure AI认知服务首席技术官黄学东解释说，视觉词表的预训练就像孩子们阅读图画书，图画书中每个单词都会与图像联系起来，比如一个苹果的图片下面有个单词apple ，一只猫的图片下面有个单词cat 。
视觉词表的预训练本质上就是训练系统完成这种动作记忆。

文章图片

建好词表后，进入第二阶段微调推断，即通过已标记好的图像进行检测，让模型融合预先训练好的视觉词汇信息，再自动生成通用的模板语句。如生成模版语句是[A]持有[B] ，并用获取的对象标签填充模版，以得到标题，如“人持有狗” 。
推理阶段则通过提取区域特征检测标签完成自回归模型。这样，即使出现词库中没有的词，也能生成正确的描述。
二、性能超原版两倍，新模型将投入使用
新模型不仅在测试图像描述性能的nocaps基准测试中排行第一，性能也是先前图像描述模型的两倍。

文章图片

这种很好的泛化效果很大程度上归功于模型预训练中学习的视觉词汇，它将语义意义相似的视觉对象或区域映射到离散语义空间中彼此接近的特征向量中，而不是依赖于已经标记好的图像。所以该团队表示后期的主要任务会落在采用其他大量的视觉数据，提高视觉词汇的质量上。

文章图片

现在，该模型已经可以在Azure认知服务的“计算机视觉”软件包中获取，并将于今年晚些时候安装到Windows、Mac以及网页上的Word、PowerPoint和Outlook中。
其致力于提高视障人士交流、浏览信息的应用程序Seeing AI ，也将通过该新模型从阅读文档、识别场景、人物动作等方面全面提高其识别的准确率和用户体验。

文章图片

结语：不让任何人被科技“淘汰”
微软AI平台小组的软件工程经理Saqib Shaikh上周解释说：“被描述为‘可以替代文本’、自动生成描述的新模型将填补视力缺陷人士无法参与视觉世界的缺憾。理想情况下，社交媒体中所有图像，甚至每个现实生活中的人都该有替代文本，方便盲人浏览信息并参与对话。但是可惜的是，现在我们还无法实现。 ”

模型|看图说话最强“王者”？微软发布最新机器学习模型，助视障人士“冲浪”网络

推荐阅读

姚振华|深圳最大的隐形富豪，曾靠卖菜赚足300亿，今千亿资产却不上市

本月起，农村“严管”，5种东西别使用，不知情者罚款少不了

「温娟说历史」马超接班人是马岱，五虎上将其余三人呢？，赵云接班人是陈到

发生@湖北山东浙江5个监狱发生感染目前没有重症病例

星座小艾米顺风顺水，财运亨通的4生肖，赚得钵满盆满，5.8号苦尽甘来

时尚狂想曲|她17岁被杨幂公司签下，今穿波点上衣配短裤，脸上贴花复古个性

文艺圈|想抱马頔遭拒，网友大骂油腻恶心，黄轩录节目在女生面前露上半身

安乐传|《安乐传》将播，龚俊迪丽热巴主演，古装武打，加偶像爱情

藏在深山的这个村庄，如今成电商“前沿阵地”

青年“好气质”女人如何穿搭？学会这2个穿搭技巧，优雅也没有那么难

很简单！关于红米新机系列“抄袭”，卢伟冰一句话就能解释原因

底牌|终于传来好消息！我国主动亮出底牌，俄罗斯：藏得太深了！

裤子尺码对照表什么？如何选择适合自己的尺码

「甜初游戏」逆水寒本周最新鲜80级解封费用下调

景谷红茶,下关景谷月光白茶价格

咳嗽有痰吃什么水果好什么水果止咳化痰

怎样爱孩子，不会掉入溺爱的陷阱中？

988国际热评|美媒质疑印度疫情：感染人数超百万，死亡人数却成谜，非常时期

展现出|街拍青春靓丽的打底裤小姐姐，展现出自然美感，很有女神气质

农民不种大蒜种这货用地窖存，亩产六千多斤3元一斤亩赚2万多