谷歌开发者@MediaPipe 的移动端实时 3D 对象检测，基于文/GoogleResearch软件工程师AdelAhmad

文/GoogleResearch软件工程师AdelAhmadyan和TingboHou

文章图片
对象检测是计算机视觉中一个被广泛研究的课题，但是大多数研究主要集中于讨论2D对象预测。虽然2D预测仅提供2D边界框，但通过将预测扩展到3D ，我们可以捕获物体在现实世界的大小、位置和方向信息，从而实现在机器人技术、自动驾驶汽车、图像检索和增强现实中的多种应用。
2D对象检测技术已相对成熟，并且已在业内得到广泛应用。但是由于数据缺乏，且单个类别中物体的外观和形状千变万化，通过2D图像进行3D对象检测仍然面临挑战。
今天，我们宣布发布MediaPipeObjectron ，一种用于日常对象的移动端实时3D对象检测流水线。 Objectron可检测2D图像中的对象，并通过在新创建的3D数据集上进行训练的机器学习(ML)模型来估计其姿势和大小。 Objectron源于开源跨平台框架MediaPipe ，该框架用以构建流水线以处理不同模态的感知数据，因此Objectron可以在移动设备上实时计算物体的方向3D边界框。

文章图片

文章图片

文章图片
对单个图像进行3D对象检测：MediaPipeObjectron可实时检测移动设备上日常对象的位置、方向和大小
获取真实世界的3D训练数据
由于依赖于LIDAR等3D捕获传感器的自动驾驶技术研究的日益普及，现在已有大量街道场景的3D数据，然而针对更精细的日常物体的地面实况3D有标签标注数据集却极为有限。
为克服此问题，我们使用移动增强现实(AR)会话数据开发出一种新的数据流水线。随着ARCore和ARKit的推出，上百万智能手机现已具备AR功能，并且能够在AR会话期间捕获其他信息，包括相机姿态、3D点云稀疏性、预估照明和水平表面等。
为标记地面实况数据，我们构建一种新型标注工具，以结合AR会话数据使用，该标注标注工具可帮助数据标注标注员快速标记对象的3D边界框。此工具使用分屏视图来展示，在左侧显示2D视频帧与叠加的3D边界框，同时在右侧显示3D点云、相机位置，以及检测到的平面。标准员在右侧3D视图中绘制3D边界框，并通过检查在2D视图中的投影来验证是否标记正确。对于静态对象，我们只需在单个帧中标注对象，然后使用来自AR会话数据的地面实况相机姿态信息将其位置推广到所有帧，从而提高绘制过程的效率。

文章图片
3D对象检测的实际数据标注：右：3D边界框使用检测到的表面和点云在3D环境中完成标注。左：已标注的3D边界框的投影叠加在视频帧的顶部，方便验证标注
AR合成数据生成
为提高预测准确性，用合成数据补充现实数据的做法很流行。但是，这种方法往往会产生质量较差且不真实的数据，或者，在进行真实感渲染时，需要花费大量的精力和计算量。
我们使用了一种称为“AR合成数据生成(ARsyntheticdatageneration)”的新方法将虚拟对象放置到具有AR会话数据的场景中，从而能够利用相机姿态、检测到的平面和预估照明来生成现实中可能存在且光线情况与场景匹配的物体放置。这种方法可生成高质量的合成数据：渲染的对象符合场景的几何结构特点，还能够无缝拟合至现实背景中。通过将现实数据与AR合成数据结合，精度提升约10%左右。

谷歌开发者@MediaPipe 的移动端实时 3D 对象检测，基于

推荐阅读

《骄阳伴我》首播，肖战表现惊艳，这次，央视好像又淘到宝了

澄海3c怀特之腿怎么用怀特之腿怎么用

胆管息肉有什么危害

华夏航空预计上半年净利下降超九成，6月航班量正增长

当官|鲁迅的后人现状如何？儿子当官，孙子是我们熟悉的大明星！

「人民网」商务部：打通运输“大动脉” 畅通物流“微循环”

海清|心疼！海清自曝骨囊肿，不能站立半夜疼醒，16岁儿子懂事背妈妈

烹饪|三伏天，遇到此菜别手软，钙是鸡肉7倍，现在正当季，蒸包子真香

神叨酱塔罗牌占卜|神叨酱：8.12日心灵运势指引

Ts娱乐圈|希望她的团队能清醒一点吧，太急功近利了，张艺凡热搜不断

广东男篮@48分惨案！广东残暴继续：全队33助攻+外援仅6分钟，送钟南山大礼

科学家@地底新发现，4000米深处发现“类人类”生物！或许威胁了人生生存？

深港科技说堪称经典中的经典，致敬时代？他们都说这款iPhone

『央视』中国方舱CT驰援智利抗疫前线

现代快报|九月英仙座ε流星雨9日迎来极大，月光或影响观测

五招减肥高效的健美操纤腰翘臀变S美人

『皇家马德里』巨资加神锋！昔日宝贝成添头，皇马锁定新巨星

冷无情|王一博的盛世美颜之【这就是街舞3】篇

怎样评价马克西姆的新专辑《mezzo e mezzo》

小熊科技|体积小，功能全！摩米士MOMAX氮化镓GaN快充充电器体验