模型|看图说话最强“王者”?微软发布最新机器学习模型,助视障人士“冲浪”网络
_原题为 看图说话最强“王者”?微软发布最新机器学习模型 , 助视障人士“冲浪”网络
文章图片
智东西(公众号:zhidxcom)
编 | 子佩
智东西10月20日消息 , 轻轻滑动手指 , 我们能轻松地阅读文字、图片、浏览视频 , 获取各种各样的信息 , 这一切都依赖于我们的视觉感官 。 但对于视力有障碍的人而言 , 却没有那么简单 。
【模型|看图说话最强“王者”?微软发布最新机器学习模型,助视障人士“冲浪”网络】早在2017年 , 微软就发布了移动应用程序Seeing AI , 试图分析周围环境并通过语音为视力缺陷者带来帮助 。 基于神经网络 , 这款应用不仅可以翻译文本 , 而且可以识别人物和货币、扫描产品条形码 , 对整个场景或者导入的图像进行简单的描述 。
而9月28日 , 微软在arXiv平台上发表了有关自动生成图像描述机器学习模型的论文《基于视觉词汇预训练超越人类表现的新颖的对象描述(VIVO: Surpassing Human Performance in Novel Object Captioning with Visual Vocabulary Pre-Training)》 , 性能超2017版Seeing AI模型两倍 , 并将运用在Seeing AI以及旗下众多软件中 。
论文链接:https://arxiv.org/abs/2009.13682
文章图片
一、基于弱监督学习 , 跨越文本图像两大维度
基于图像生成文字描述 , 对于人类这是个很简单的问题 , 但对于机器却非常有挑战性 。 因为它既需要理解图像的内容生成标签 , 又需要将这种单个标签串在一起 , 转化为人类可以理解的自然语言 , 结合了计算机视觉和自然语言处理两大人工智能领域的热点问题 。
微软的研究人员提出了视觉词汇预训练(visual vocabulary pre-training , 简称VIVO)的技术 , 即通过弱监督学习方法对图像描述模型进行预训练 , 其中包括两个阶段:预训练和微调推断 。
文章图片
基于大型Transformer神经网络 , VIVO可以在没有文本标签的数据上对文本和图像的多模态进行预训练 , 令模型学会识别图像中的常见物体和生物并标记它们 , 并建立起将文本和图片联系起来的视觉词表 。
视觉图表就是一个图像和文本的联合特征空间 , 语义相近的词会聚类在一起 , 例如金毛和牧羊犬、手风琴和乐器等 。
文章图片
Azure AI认知服务首席技术官黄学东解释说 , 视觉词表的预训练就像孩子们阅读图画书 , 图画书中每个单词都会与图像联系起来 , 比如一个苹果的图片下面有个单词apple , 一只猫的图片下面有个单词cat 。
视觉词表的预训练本质上就是训练系统完成这种动作记忆 。
文章图片
建好词表后 , 进入第二阶段微调推断 , 即通过已标记好的图像进行检测 , 让模型融合预先训练好的视觉词汇信息 , 再自动生成通用的模板语句 。 如生成模版语句是[A]持有[B] , 并用获取的对象标签填充模版 , 以得到标题 , 如“人持有狗” 。
推理阶段则通过提取区域特征检测标签完成自回归模型 。 这样 , 即使出现词库中没有的词 , 也能生成正确的描述 。
二、性能超原版两倍 , 新模型将投入使用
新模型不仅在测试图像描述性能的nocaps基准测试中排行第一 , 性能也是先前图像描述模型的两倍 。
文章图片
这种很好的泛化效果很大程度上归功于模型预训练中学习的视觉词汇 , 它将语义意义相似的视觉对象或区域映射到离散语义空间中彼此接近的特征向量中 , 而不是依赖于已经标记好的图像 。 所以该团队表示后期的主要任务会落在采用其他大量的视觉数据 , 提高视觉词汇的质量上 。
文章图片
现在 , 该模型已经可以在Azure认知服务的“计算机视觉”软件包中获取 , 并将于今年晚些时候安装到Windows、Mac以及网页上的Word、PowerPoint和Outlook中 。
其致力于提高视障人士交流、浏览信息的应用程序Seeing AI , 也将通过该新模型从阅读文档、识别场景、人物动作等方面全面提高其识别的准确率和用户体验 。
文章图片
结语:不让任何人被科技“淘汰”
微软AI平台小组的软件工程经理Saqib Shaikh上周解释说:“被描述为‘可以替代文本’、自动生成描述的新模型将填补视力缺陷人士无法参与视觉世界的缺憾 。 理想情况下 , 社交媒体中所有图像 , 甚至每个现实生活中的人都该有替代文本 , 方便盲人浏览信息并参与对话 。 但是可惜的是 , 现在我们还无法实现 。 ”
推荐阅读
- 唐一菲|《演员请就位》唐一菲退赛上热搜真正伤害人的,是你的说话方式
- 海贼资讯|李雪琴太会说话,自曝三大择偶标准,把王一博夸出了新境界
- 认真映画|说话从不过脑子?她们这样活该没朋友吧!
- 研究|给AI一张高清照片,分分钟还你细节满满的3D人体模型
- 大城看社会|楼上六七点挪凳子吵,租客向物业反映后,房东让她别乱说话
- 生物|超会玩!河北一高中开设手工泥巴课 学生用粘土捏出细胞模型
- 谄媚|宁静当年蹲在张国立脚边说话,表情谄媚,一旁的章子怡满脸不屑
- 天气早知道|《央视》评娱乐圈蹭热度事件, 为肖战说话, 更为演员说话
- 表情|宁静当年蹲在张国立脚边说话,表情谄媚,一旁的章子怡满脸不屑
- 赵丽颖|没文化?赵丽颖不识字念不了名单,中奖网友拉出监考老师替她说话