打开，体验流畅的单目三维手势技术机器之心专栏机器之心编辑部近日

机器之心专栏
机器之心编辑部
近日，快手 Y-Tech 团队研发上线了国内首家端上单目三维手势技术，用户在手机上就能体验到流畅的三维手势技术和相关魔表效果。
历时一年多，快手研发人员在手部数据生成、数据真实化、网络定制化与轻量化、领域迁移等多个方面进行了大量探索，提出了领域特征自适应对齐和显式教师网络等方法，提高了跨域训练效果，降低了不合理手型概率，相关工作分别发表在 ACMMM 2020 和 BMVC 2020 上。
文章插图
论文链接：
文章插图
论文链接：
效果展示：
单目三维手势
三维手势技术指的是输入包含人手的彩色图像，预测人手关键点在相机空间下的三维坐标，如图 1 所示。
文章插图
图 1：三维手势预测任务简介
该技术在虚拟现实、机器人控制以及体感游戏等领域有着广泛的应用前景，成为近年来的热点研究方向。但是三维手势识别，尤其是单目场景下，是一项极具挑战性的任务。受深度歧义性以及遮挡等因素的影响，三维手势数据的标注十分困难，这导致了三维手势训练数据的匮乏。基于这种场景单一和有限的手势数据进行训练，神经网络很难取得令人满意的效果。
一种解决方案是利用多摄像头系统采集不同角度的手部图片，然后使用三角化方法以自动或半自动的方式标注数据。然而该方案采集的图片背景比较单一，标注噪音也较大。另一种方案是使用计算机图像学（CG）方法生成虚拟手部数据。生成数据成本低廉、分布均匀可控、标注准确，能够作为真实数据集的补充引入到训练当中，结合数据真实化和领域迁移等方法能够有效提升手势识别的鲁棒性。
快手 Y-Tech 团队使用 CG 生成数据，结合提出的两种网络训练新方法有效缓解了训练数据不足和预测手型不合理现象，提升了预测的准确性。
【打开，体验流畅的单目三维手势技术】自适应特征对齐方法提升跨域训练效果。现有方法大多采用生成数据与真实数据联合训练的方式，忽略了两者在图像和标注层面的差异，导致神经网络无法有效学习二者的共性特征。通过自适应学习领域共有特征和独有特征，该方法能有效提升生成数据在真实场景的泛化能力。
结合教师网络和人手物理约束提升预测手势合理性。训练数据不足时，神经网络无法充分挖掘数据集的高层次信息，导致预测手势中具有较多的不合理手型。针对这个问题，研究人员设计了一种显式教师网络来指导手势关键点预测模型，使输出符合人手物理约束。
自适应的特征对齐
近年来，许多研究者使用生成数据来缓解真实场景下的训练数据匮乏问题，显著提升了真实场景数据集下的三维手势预测准确率 [1,2] ，但是这些方法往往采用生成数据与真实数据联合训练的方式，忽略了二者的领域差异。
生成数据与真实数据的领域差异主要体现在两个方面：视觉差异与标注差异。由于人手的皮肤纹理非常复杂，现有的生成数据还无法模拟出完全真实的人手，如图 2 所示。同时由于标注机制的不同，生成数据可以使用人手骨骼作为标注点，而真实数据集往往只能以皮肤表面点为标注点，这导致二者的三维标注并不相同，如图 3 所示。
由于生成数据和真实数据的差异性无法避免，特征对齐或特征映射的难度较大，无法有效学习二者的共有特征，因而生成数据集的作用被弱化。
文章插图

打开，体验流畅的单目三维手势技术

推荐阅读

肖战|肖战凭实力打天下，众品牌“卷疯了”！网友：这怕是最奇入坑姿势

股份|顺络电子：董事长袁金钰解除质押254万股，质押165万股

米娜|谁能抵挡！，法式连衣裙的优雅、怀旧

推荐值得二刷的10部高分经典剧集，每部都让你受益匪浅

「奥拉大梦」疯狂的2020年——目前为止发生的“历史之最”

明明知道一件事还假装不知道,很多事情我知道却假装不知道-

火箭队|希金斯：小特进攻匪夷所思，兼具马叔火箭特点像斯诺克表演艺术家

风寒感冒吃什么药? 风寒感冒

传染病@世界疫情形势不容乐观，一图了解！

笑声快车|管栎汉服写真有点帅，风格多变判若两人，粉丝：我嫁哪个？

西藏官方要求2019年确保农牧民年收入增长13%以上

#云米#云米家庭用户数量升至320万预计今年一季度营收同比持平

搞笑益生菌|长大后，都要做精英，可听这解释，我决定放弃了，搞笑段子：老师告诫学生

路面裂缝修补的方法视频路面裂缝修补的方法

新华网|辣椒丰收

少女观娱|弟弟圆脸十分软萌，neinei生图却引关注，吴尊儿女长开啦

创业|职场年轻人，如何出人头地，请只争朝夕，不负韶华

苏打水什么味道(苏打水属于健康饮料吗)

国家科学技术奖全面实行提名制

新华网|伊朗累计新冠确诊病例超过70万例