英伟达|英伟达又一次突破想象力:一句话实时P图 在线试玩( 二 )
文章图片
那么,生成这一系列风景照的GauGAN2,背后究竟用了什么原理?
它与OpenAI今年发布的DALL·E和CLIP,又究竟有什么区别?
与DALL·E有什么不同?
2019年,英伟达GauGAN2的“前身”GauGAN正式开源 。
当时的它,还只拥有其中一个能力,就是将涂鸦直接变成风景画,就像「神笔马良」一样,还推出了对应的软件Canvas:
文章图片
当然,这时GauGAN已经能随意改变画面风格了,从白天黑夜到春夏秋冬的气质都能稳稳“拿捏”:
文章图片
据英伟达介绍,GauGAN采用了一种基于空间适应标准化(SPADE)算法 。
SPADE算法不仅使用随机的输入图像,还采用了一种被称作“分割图”的图像 。在分割图中,每一个像素都会被归类,来生成更接近于真实的图像,这种模式被称作“图对图翻译” 。
文章图片
△GauGAN的技能点(狗头)
现在,英伟达将GauGAN升级成了GauGAN2,后者一共采用了1000万张高质量的图片、在英伟达Selene超算上进行训练,这台超算在Green500排行榜上排到世界第二 。
生成这些风景画的效果和“手法”,是不是感觉有点熟悉?
没错,大多数人看到GauGAN2的第一眼,可能都会觉得它和OpenAI的DALL·E+CLIP有点像 。
今年年初,OpenAI用DALL·E和CLIP两个模型,做了个“图像版”GPT-3,同样能用一句话生成图片 。
文章图片
不过,这两个模型生成的内容其实不太一样 。
GauGAN2专注于生成风景照,DALL·E+CLIP则更多地生成具体的物体,例如一把椅子或者一个闹钟等 。
文章图片
这与它们的原理差异也有关系,GauGAN2更加注重“单词与视觉效果”之间的关系,例如“冬天”这种模糊的状态词给照片带来的效果;DALL·E+CLIP则更注重“文字-图像”这种有明确对应关系的物体效果 。
据英伟达介绍,GauGAN2不同于“文本-图像”和“分割图像-图像”一类的模型,它所能产生的照片种类更多,质量也会更高 。
不过,偶尔也会出现点bug…
比如给出“沙滩(beach)”一词后,有些生成的画面中出现了语言无法描述的事物 。
文章图片
对此,英伟达表示,他们在训练中“完全没有用到任何人像照片” 。(所以可能是偶然?)
但这样一来,网友想要的“瑞克摇(Rick roll)”和“鬼畜视频生成”,GauGAN2大概也是没办法实现了 。
文章图片
但是能生成仿佛梦境中才能见到的画面,也吸引了不少人来试玩 。
这不,有人就晒出了自己生成的抽象画大作,并表示自己非常喜欢这个模型:
文章图片
还有人表示,GauGAN2给出了一些建筑设计的新idea啊 。
文章图片
也有网友觉得这种能够自动生成景观的功能,未来Adobe可能也会用上 。
或许就是下一个画手利器?
文章图片
最后,GauGAN2在浏览器上就能试玩,欢迎大家留言讨论自己的体验感受~
GauGAN2试玩Demo地址:http://gaugan.org/gaugan2/
推荐阅读
- 新冠疫苗|国外药企研发出新型新冠疫苗:防止住院及重症有效率达100%
- Wi-Fi|Wi-Fi 6今年大普及 Wi-Fi 7明年问世:速率可达40Gbps
- 京东|京东发布乡村振兴“奔富计划”全景图:千县万镇24小时达
- 特斯拉|特斯拉取消雷达 车主“幽灵刹车”投诉猛增3000%!美国监管介入
- 微软|新版任务管理器曝光Win11性能新机制:速度提升多达76%
- 荣耀|最高可达100W!荣耀Magic 4发布新预告视频:快充技术“一骑绝尘”
- 华为|网传速腾聚创代工华为车载激光雷达 华为回应:我们有自己的产线
- AMD|IPC性能提升多达40% AMD的Zen4也有个坏消息:3nm工艺麻烦了
- 马自达|比三缸奇骏更富驾驶乐趣!新款马自达CX-5预售:17.98万元
- 面皮|消费者在阿宽面皮中疑似吃出老鼠肉!官方回应:已达成和解