图片|文本转图片的危险算法“达利”降临:“造假”程度绝了

论算法创新,OpenAI好像永远都不会让我们失望 。
这个世界最牛逼的人工智能实验室之一,推出过包括GPT2、GPT3等极为强大的自然语言处理模型,威震人工智能圈 。而在创始人马斯克退出,微软数十亿美金重金接手后,他们便开始逐步向技术商业化之路做出妥协 。
但这并没有影响他们在“无人之境”的奔跑速度 。
这一次,我们又在不同领域一流期刊杂志上,看到了OpenAI的名字 。这一次与他们名字同时出现的,是大量色彩斑斓到让人心生愉悦,但却似真非真、似假非假的图片 。
以及图片背后一个具有致命创造力和吸引力的新算法 。
【图片|文本转图片的危险算法“达利”降临:“造假”程度绝了】图片|文本转图片的危险算法“达利”降临:“造假”程度绝了
文章图片

OpenAI新算法生成的图像,这些图像未曾在现实中出现
这个算法的名字叫DALL-E2(达利),据说是为了致敬2008年的动画电影《机器人瓦力》和超现实主义画家萨尔瓦多·达利而取的 。这就意味着,算法可能具备了一些超出人类想像的能力 。
简单来说,它是一个可以将文本描述转换为图像的系统——只要写下你想看到的东西,达利就会为你绘制出来,非常像一个二维版的3D打印机 。
举个例子,当你在达利搜索栏里,输入“长得像牛油果的茶壶”,它会在大约5秒时间内,生成多达10张与“牛油果茶壶”词义相符的图片 。
结果显然100%扣题 。而且因为分辨率很高,所以这些图像看起来更像是真实的照片 。
但这个例子其实非常“现实主义”,因为牛油果形状的茶壶,我们极有可能在创意商店中买到 。但是“会下棋的猫”呢?OpenAI工程师Alex Nichol在输入“会下棋的猫”后,生成了这样一张图片:
图片|文本转图片的危险算法“达利”降临:“造假”程度绝了
文章图片

老夫的少女心……看起来毫无违和感
还有难度更高的文字描述词,譬如“一个雨夜,一个超级英雄栖息在城市上空,风格就像一本漫画书”,输出结果没有一处不符合词义:
图片|文本转图片的危险算法“达利”降临:“造假”程度绝了
文章图片

而输入“位于城市中心的巴比伦空中花园,达利画风”,输出的艺术效果简直妙不可言:
图片|文本转图片的危险算法“达利”降临:“造假”程度绝了
文章图片

此外,达利系统还输出了很多文字描述复杂,但输出结果不仅精准,而且堪称艺术品的图片,都被放在了 OpenAI 的instergram上:
想想我们平时在百度里搜图时出来的垃圾结果,就隐约能明白达利的强大创造力意味着什么 。
本质上,与很多人工智能算法模型一样,DALL-E就是一个模拟了大脑神经元网络的数学系统,它自然需要分析大量数据来学习技能 。
譬如刚才讲的牛油果茶壶,在识别出一颗牛油果之前,OpenAI说,达利至少观摩了上千个大大小小、奇形怪状的牛油果 。而更重要的是,它还需要在图像与描述图像的文字之间,找到一种关系模式 。
事实上,这个系统引发人工智能研究圈讨论的关键之一,便在于它能够同时处理文字语言与图像,并且在自然语言理解与计算机视觉之间构建起更加紧密的关系 。而此前的研究,的确还没有到达这样的水平 。
《MIT技术评论》给出的评价,一定程度上代表了学术领域对达利系统的部分态度:“虽然这些被制作的图像既超现实又呈现卡通化,但它们证明了,人工智能已经学会‘世界被组合在一起的基础逻辑’ 。这些图像实在是令人惊叹 。”
图片|文本转图片的危险算法“达利”降临:“造假”程度绝了
文章图片

这个图像输入Dalle的搜索文字是:“一辆未来汽车在雾中滑行”
不过,从Dalle2这个名字就能看出,OpenAI曾在此前推出过向大众开放的第一代版本,然而我在试用后,严重怀疑第一代达利,可能仅仅装了一个印象派画风滤镜 。
譬如,当我输入“马斯克是个‘吹牛逼大王’”,出来的都是脸部扭曲的马斯克大头照:
图片|文本转图片的危险算法“达利”降临:“造假”程度绝了


推荐阅读