『量子位』AI也能完美视频抠图,发丝毕现,毫无违和感,没有绿幕
鱼羊发自凹非寺
量子位报道|公众号QbitAI
在阳台上给小姐姐拍个视频:
文章图片
再把她P到喷泉广场:
文章图片
需要几步?
现在 , 无需绿幕 , AI就能搞定这件事 。
就像这样 , 随便用手机给小姐姐拍张照片 , 再在同一地点拍张不带人像的背景图 。
文章图片
深度神经网络就能自动分析出alpha遮罩和前景色 , 把小姐姐的发丝都抠得根根分明 。
文章图片
视频也是如此 。
让憋着笑的同事在实验室白板前表演一段广播体操 , 再给背景板单独来一张 , 就可以无中生有把同事“转移”到大厅里 , 引来路人围观了 。
文章图片
这是来自华盛顿大学的一项最新研究 , 无需绿幕 , 无需手动创建Trimap , 一个具有对抗性损失的深度神经网络 , 就能准确预测遮罩 , 给照片和视频抠图 。
论文已经中了CVPR2020 , 代码即将开源 。
深度抠图网络+鉴别器网络
那么 , 这样的抠图特技是如何炼成的?
研究人员表示 , 是具有对抗性损失的深度网络+判断合成质量的鉴别器 。
深度抠图网络
研究人员先在AdobeMatting数据集中的非透明对象子集上对深度神经网络G进行了监督训练 。
输入是带人像的照片I和照片中的背景B’ , 以及人像软分割S和运动先验M(仅对视频而言) 。
需要注意的是 , 在真实环境中 , B’是通过在真实背景的前景区域随机加入噪声而生成的 。
依据输入 , 网络会预测出alpha遮罩α和前景图像F 。
文章图片
研究人员提出用背景切换块(ContextSwitchingblock , CSblock)来取代基于残差块的编码器-解码器 。
有什么不同?
举个例子 , 当人的一部分与背景相匹配的时候 , 网络会将更多精力放在该区域的细分线索上 。
G网络有四个不同的编码器 , 分别适用于I , B’ , S和M四种输入 。 每个编码器分别生成256个通道的特征图 。
通过1×1卷积 , BatchNorm和ReLU , I中的图像特征分别与B’ , S和M结合 , 每一对组合都会生成64通道特征 。
最后 , 将这3个64通道特征与原始的256通道图像特征组合在一起 , 生成编码后的特征 , 并传递到由残差块和编码器组成的其余网络 。
文章图片
在未标记真实数据上的对抗训练
CSblock和数据增强的结合 , 可以有效弥合真实图像与Adobe数据集创建的合成图像之间的差距 , 但真实图像中仍然有存在一些难点:
将手指、手臂、头发周围的背景痕迹复制到遮罩中;
分割失败;
前景色的重要部分与背景颜色接近;
【『量子位』AI也能完美视频抠图,发丝毕现,毫无违和感,没有绿幕】人像照片和背景照片之间没有对准 。
为了应对这些问题 , 研究人员还提出了一种自监督方案 , 从未标记的真实数据(真实图像+背景)中学习 。
用深度抠图网络G的单独副本GReal组成对抗网络 , 对抗网络会生成类似于GAdobe输出的遮罩 , 而鉴别器网络D会判别结果的真假 。
研究人员使用真实输入(手机拍摄)联合训练GReal和D , 并用GAdobe来提供监督 。
推荐阅读
- 「Python」小卖家也能月入5000+的方法
- 『李佳琦』又一“造富”行业浮出水面!马云已抢先布局,00后心中的完美职业
- 可可酱75吋量子点电视让孩子健康成长,如何才能健康不伤眼的看电视?TCL
- 『』再论汉字:人类唯一能适应未来星际文明的语言,完美的如同艺术
- 大軍軍軍軍iPhoneXR详细评测:性能完美系统很流畅!
- 【苹果】为什么现在是切换到iPhone的完美时机,让我来告诉您,不喜勿喷
- 小李聊数码LCD屏也能支持屏下指纹,3M新技术亮相
- 中国智能制造网量子通信布局起风了!,多国已未雨绸缪
- 支付宝:再大的内存也能卡哭你!!看看手机变卡的原因和解决方法。
- 「量子力学」爱因斯坦也束手无策,困扰人类上百年的难题,如今终于有了答案