谷歌开发者@MediaPipe 的移动端实时 3D 对象检测,基于

文/GoogleResearch软件工程师AdelAhmadyan和TingboHou
谷歌开发者@MediaPipe 的移动端实时 3D 对象检测,基于
文章图片
对象检测是计算机视觉中一个被广泛研究的课题 , 但是大多数研究主要集中于讨论2D对象预测 。 虽然2D预测仅提供2D边界框 , 但通过将预测扩展到3D , 我们可以捕获物体在现实世界的大小、位置和方向信息 , 从而实现在机器人技术、自动驾驶汽车、图像检索和增强现实中的多种应用 。
2D对象检测技术已相对成熟 , 并且已在业内得到广泛应用 。 但是由于数据缺乏 , 且单个类别中物体的外观和形状千变万化 , 通过2D图像进行3D对象检测仍然面临挑战 。
今天 , 我们宣布发布MediaPipeObjectron , 一种用于日常对象的移动端实时3D对象检测流水线 。 Objectron可检测2D图像中的对象 , 并通过在新创建的3D数据集上进行训练的机器学习(ML)模型来估计其姿势和大小 。 Objectron源于开源跨平台框架MediaPipe , 该框架用以构建流水线以处理不同模态的感知数据 , 因此Objectron可以在移动设备上实时计算物体的方向3D边界框 。
谷歌开发者@MediaPipe 的移动端实时 3D 对象检测,基于
文章图片
谷歌开发者@MediaPipe 的移动端实时 3D 对象检测,基于
文章图片
谷歌开发者@MediaPipe 的移动端实时 3D 对象检测,基于
文章图片
对单个图像进行3D对象检测:MediaPipeObjectron可实时检测移动设备上日常对象的位置、方向和大小
获取真实世界的3D训练数据
由于依赖于LIDAR等3D捕获传感器的自动驾驶技术研究的日益普及 , 现在已有大量街道场景的3D数据 , 然而针对更精细的日常物体的地面实况3D有标签标注数据集却极为有限 。
为克服此问题 , 我们使用移动增强现实(AR)会话数据开发出一种新的数据流水线 。 随着ARCore和ARKit的推出 , 上百万智能手机现已具备AR功能 , 并且能够在AR会话期间捕获其他信息 , 包括相机姿态、3D点云稀疏性、预估照明和水平表面等 。
为标记地面实况数据 , 我们构建一种新型标注工具 , 以结合AR会话数据使用 , 该标注标注工具可帮助数据标注标注员快速标记对象的3D边界框 。 此工具使用分屏视图来展示 , 在左侧显示2D视频帧与叠加的3D边界框 , 同时在右侧显示3D点云、相机位置 , 以及检测到的平面 。 标准员在右侧3D视图中绘制3D边界框 , 并通过检查在2D视图中的投影来验证是否标记正确 。 对于静态对象 , 我们只需在单个帧中标注对象 , 然后使用来自AR会话数据的地面实况相机姿态信息将其位置推广到所有帧 , 从而提高绘制过程的效率 。
谷歌开发者@MediaPipe 的移动端实时 3D 对象检测,基于
文章图片
3D对象检测的实际数据标注:右:3D边界框使用检测到的表面和点云在3D环境中完成标注 。 左:已标注的3D边界框的投影叠加在视频帧的顶部 , 方便验证标注
AR合成数据生成
为提高预测准确性 , 用合成数据补充现实数据的做法很流行 。 但是 , 这种方法往往会产生质量较差且不真实的数据 , 或者 , 在进行真实感渲染时 , 需要花费大量的精力和计算量 。
我们使用了一种称为“AR合成数据生成(ARsyntheticdatageneration)”的新方法将虚拟对象放置到具有AR会话数据的场景中 , 从而能够利用相机姿态、检测到的平面和预估照明来生成现实中可能存在且光线情况与场景匹配的物体放置 。 这种方法可生成高质量的合成数据:渲染的对象符合场景的几何结构特点 , 还能够无缝拟合至现实背景中 。 通过将现实数据与AR合成数据结合 , 精度提升约10%左右 。
谷歌开发者@MediaPipe 的移动端实时 3D 对象检测,基于


推荐阅读