智东西|糊图像5秒变清晰,马赛克秒变没!杜克大学推AI图像生成器


智东西|糊图像5秒变清晰,马赛克秒变没!杜克大学推AI图像生成器
文章图片
智东西(公众号:zhidxcom)
编|董温淑
智东西6月24日消息 , 近日 , 杜克大学的研究团队研发了一个AI图像生成模型PULSE 。 PULSE可以在5秒钟内将低分辨率的人像转换成清晰、逼真的人像 。
【智东西|糊图像5秒变清晰,马赛克秒变没!杜克大学推AI图像生成器】要指出的是 , PULSE所做的工作并不是把低分辨率“还原”到高分辨率 , 而是输出许多张可能的高分辨率图像 。 比如 , 用户输入一张16*16分辨率的图像 , PLUSE可输出一组1024*1024分辨率的图像 。
智东西|糊图像5秒变清晰,马赛克秒变没!杜克大学推AI图像生成器
文章图片
这项研究于本月在计算机视觉与模式识别顶会CVPR2020上发表 , 论文标题为《PULSE:通过对生成模型的潜在空间探索实现自监督照片上采样(PULSE:Self-SupervisedPhotoUpsamplingviaLatentSpaceExplorationofGenerativeModels)》 。
智东西|糊图像5秒变清晰,马赛克秒变没!杜克大学推AI图像生成器
文章图片
一、PULSE:不适用于人脸识别 , 能为天文学/医学提供参考
在好莱坞间谍电影中 , 肩负拯救世界重任的特工常常采用高科技手段、把一张模糊的凶犯照片还原成清晰的人脸照片 。 现实中 , 许多研究人员致力于用AI技术使电影中的炫酷场景成真 。 但是 , 现有AI模型的性能普遍较差 , 生成的人脸图像往往与照片主人公的真实长相并不相似 。
杜克大学计算机科学专业教授CynthiaRudin指出 , 这是因为低像素图像中的信息较少 , AI模型无法准确地“补足”缺失信息、进而还原出清晰人脸图像 。 因此 , 用AI技术对模糊人像进行面部识别是不可能的 。
Rudin团队认为 , 虽然不能用于模糊人像的面部识别 , 但是这类AI模型可以作为一种分类和探索工具 , 用于天文学、医学等难以获得清晰图像的领域 。 也就是说 , 基于模糊图像中缺失信息的各种可能性 , AI模型可以生成许多清晰的图像 , 生成的多种图像可以为天文学、医学等领域研究人员提供参考 。
基于这种设想 , 杜克大学研究人员研发了基于对抗生成网络(GAN)的图像超分辨率模型PLUSE 。 PLUSE模型采用NVIDIA的StyleGAN算法进行开发 。
二、降尺寸损失方法:用生成图像“倒推”模糊图 , 相似才能输出
为了保证输出图像与输入图像的“对应性” , 研究人员在PULSE模型中应用了一种“降尺度损失(downscalingloss)”方法 。
当PULSE模型的生成网络提议以一张清晰图像作为输出时 , 判别网络会把这张清晰图像的分辨率降低到与输入图像相等的水平 。 然后 , 判别网络会对比降尺度损失图像与输入图像之间的相似性 。
只有在降尺度损失图像与输入图像相似性较高时 , 判别网络才会判定生成网络提议的清晰图片可以作为输出 。
智东西|糊图像5秒变清晰,马赛克秒变没!杜克大学推AI图像生成器
文章图片
▲基于同一张模糊的图像 , PULSE可以生成不同的清晰图像
三、40位评估者参与打分 , PULSE模型MOS得分最高
研究人员用高分辨人脸数据集CelebAHQ评估PLUSE的性能 。 为了进行对比 , 研究人员利用CelebAHQ数据集训练了监督模型BICBIC、FSRNET和FSRGAN 。
所有模型均以16*16分辨率的图像作为输入 , BICBIC、FSRNET和FSRGAN模型以128*128分辨率图像作为输出 , PLUSE模型以128*128分辨率图像和1024*1024分辨率图像作为输出 。
评估结果显示 , 图像质量方面 , PULSE模型在生成眼睛、嘴唇等图像细节方面的能力优于其他模型 。
智东西|糊图像5秒变清晰,马赛克秒变没!杜克大学推AI图像生成器
文章图片


推荐阅读