关注本文是被人工智能领域的顶级期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)于2020年8月接收的论文《用于单目3D人体姿态估计的局部连接网络(Locally Connected Network for Monocular 3D Human Pose Estimation)》的解读 。
该论文由北京大学与微软亚洲研究院、深睿医疗合作 , 解决了从单张图像对场景中的人进行三维姿态估计的问题 。 该工作基于2019年 ICCV 论文《针对三维人体姿态估计的网络结构优化(Optimizing Network Structure for 3D Human Pose Estimation)》 , 提出局部连接网络(LCN) , 来克服图卷积神经网络(GCN)表征能力不足的限制 , 极大地提高网络表征与泛化能力 , 且进一步实现端到端部署 , 并成功应用至不同场景 。
【人体|用于单目3D人体姿态估计的局部连接网络,克服图卷积网络限制】
文章插图
1
背景介绍
利用计算机视觉技术对场景中的人进行姿态估计是当前重要的研究问题之一 , 但面对如遮挡、运动模糊等问题的挑战仍未被完全解决 。 我们旨在研究单目三维人体姿态估计 , 即从单张图像恢复人体关节点 3D 坐标 。 已有的工作之一是基于深度学习方法的全连接网络(Fully Connected Networks)(参考文献1) , 虽然相比传统方法已经大大提高了准确率 , 但是该方法并未利用人体所提供的丰富的先验知识 , 如人体关节连接与人体肢体长度等信息 , 该方法受限于其网络中密集连接而导致的弱表征力(图1(a)) 。
而后的工作(参考文献2)将图卷积网络(Graph Convolutional Network , GCN)的思想应用到这一问题中 , 却囿于其共享权重的设计并未达到很好的效果(图1(b)) 。 基于 GCN , 我们提出了一个广义公式 ,, 并推导出 FCN , GCN 都是该公式的特例 。
文章插图
图1. FCN , GCN 与本文所提出的 LCN 模型中某一层网络的概念性差异示意图2
模型概览
文章插图
图2. 我们的端到端单目 3D 人体姿态估计模型的整体流程本文中我们提出了一种从单张图像中进行 3D 人体姿态估计的方法(图2) 。 该方法包括两个步骤:首先从图像中估计 2D 姿态 , 然后估计相应的 3D 姿态 。 现有的 2D 姿态估计器已较成熟 , 我们的改进着重于第二步 。
考虑到人体关节连接可以自然地用图来表示 , 我们从图卷积网络(GCN)出发 , 基于上述广义公式 , 将 GCN 在用于 3D 姿势估计时为不同关节分配共享过滤器的缺点克服 , 提出局部连接网络(Local Connected Network , LCN) , 以为不同的关节分配专用而非共享的过滤器 。 利用空间积分的常用可微手段(spatial integral)(参考文献3) , 我们联合已有的 2D 姿态估计器和 LCN 网络进行端到端训练 , 使其可以处理不断迭代变化的 2D 姿态 。
3
实验结果
我们在两个基准数据集上评估了我们的方法 , 观察到 LCN 已达到最好水平并且具有强大的跨数据集泛化能力 。 表1为在 H36M , 即目前最大的三维人体姿态估计基准数据集之一上的表现 , 其中 Ours(Joint)为我们端到端训练模型的结果 , 评价指标是预测姿态与真实姿态的平均关节误差值 , 单位毫米 。
文章插图
表1.现有工作与我们的模型在H36M数据集上的定量误差结果(越小表示越好)
图3为应用我们的模型在不同场景图片中的效果 。 可以看到 , 该模型可成功泛化至背景丰富且动作较复杂的未曾见过的场景中 。
推荐阅读
- 微软Edge迎来一个新的浮层菜单 用于管理下载进度
- 康宁列举蓝宝石玻璃种种缺点 不适合用于消费级市场
- 将单细胞大数据用于药物研发,「百奥智汇」完成A+轮融资
- 中国首款智慧移宿空间亮相,使用寿命可达50年,可用于应急救援
- 小米有品上架时尚人体工学椅:三档后仰 五大调节功能
- 微信推出“微信豆”用于视频号直播打赏!网友:想起了Q币
- 资源|微软亚洲研究院发布开源平台“群策 MARO”用于多智能体资源调度优化
- 微信推出“微信豆”,可用于购买直播中的虚拟礼物,你会充值吗?
- 适用于机器学习、数据科学和深度学习,不同价位最好的笔记本电脑
- 毫米波技术正广泛应用于无人驾驶