京东|京东探索稀疏三维空间点云Global Context学习方法获认可

近日 , 第34届神经信息处理系统大会(Conference on Neural Information Processing Systems , 简称NeurIPS , NIPS)在线上召开 。 作为全球顶级的机器学习和计算神经科学会议 , 今年的NIPS依然受到了学者们的高度关注 , 甚至由于其线上开放的特性缓解了往年抢票难的问题 , 而将获得更多的“听众” 。
据悉 , 今年NeurIPS稿件录取率为20.09% , 创下历史新低 。 在如此严苛的录取标准之下 , 京东AI深度学习与语音语义实验室提交的探索稀疏3D点云Global Context的论文《Group Contextual Encoding for 3D Point Clouds》成功入选 。 今年以来 , 京东AI深度学习与语音语义实验室的研究成果频获国际认可 , 此前还有多篇论文入选国际语音和语言处理顶会比如ACL 2020、AAAI 2020、INTERSPEECH 2020等 。
【京东|京东探索稀疏三维空间点云Global Context学习方法获认可】Global Context对视觉感知至关重要 , 可以根据语义信息提高物体识别的准确率 , 但目前针对3D点云的Global Context的研究还不够充分 , 特别是在三维空间的情况下 , 数据呈现高维、稀疏的特点 , 对传统深度学习算法提出了挑战 。 因此 , 京东AI研究院基于其研究实习生计划与东京大学合作了《Group Contextual Encoding for 3D Point Clouds》 , 针对这一研究领域提出了Group Contextual Encoding的Global Context学习方法 。
京东|京东探索稀疏三维空间点云Global Context学习方法获认可文章插图
从目前已有3D点云GlobalContext的研究成果来看 , 比如LG-PointNet++【1】 , 其复杂度为 , N是输入点的个数 。 当场景复杂时 , 输入点数较多会导致耗费相当大的算力 。 ContextualEncodingLayer【2】的复杂度是 , 是一种有效率的方法 , K是该方法里codeword数目 。 但是点云数据稀疏导致的过拟合现象(overfitting) , 会影响性能的提升 , 导致在ScanNet , SUN-RGBD数据集上3D检测性能随着Codeword数目K的增长 , 性能却很快就饱和不再增长 。 虽然目前有一些深度补全的算法可以解决数据稀疏这个问题 , 但是这些算法都存在结构复杂、耗费计算资源的问题 , 因此 , 京东AI研究院决定探索简单有效的方法 。
首先要解决数据的稀疏问题 。 通过把特征通道分组 , 从而获得更多的等效数据 , 如图1所示 , 如果把通道分成G组特征子向量 , 数据就相对应增广了G倍 。 再将分组后的特征子向量通过Encoding layer得到Global context , 从而有利于在分组后的特征子空间学习全局上下文 ,然后通过channel attention的形式作用于分组后的特征 。 最后通过Concat操作恢复为原特征的尺寸 。 如此操作既解决了数据的稀疏问题 , 又解决算法结构复杂、算力耗费巨大的问题 。
京东|京东探索稀疏三维空间点云Global Context学习方法获认可文章插图
图1:GroupContextualEncoding方法图 。
随后 , 京东AI研究院又将这种方法在多个3D数集上进行验证 , 不仅证实这种方法简单有效 , 还刷新了SOTA方法的性能 。 将这种方法应用在PointNet++ Backbone上 , 并部署到VoteNet模型 。 如表1所示 , 在ScanNet数据集以mAP@0.25指标测评时 , 该方法领先VoteNet 【3】 2.2mAP , 增幅已然明显 , 但更令人惊喜的是 , 在更加严格的mAP@0.5 的指标下 , 如表2所示 , 该方法领先Waymo、Facebook AI Research以及Stanford大学提出的 VoteNet高达6.57 mAP , 可视化结果如图2所示 。
表1:ScanNet数据集mAP@0.25评测指标的结果 。
京东|京东探索稀疏三维空间点云Global Context学习方法获认可文章插图
表2:ScanNet数据集mAP@0.5评测指标的结果 。


推荐阅读