TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

突然间,AI 文字转图片成为了全球科技业的一大流行技术趋势 。
几周前我们报道了“新一代梗图之王” DALL·E mini,一个脑洞十分清奇的文字转图片 AI 小工具 。当时我们也提到,包括谷歌、OpenAI 等大公司和顶级研究机构都在开发相关模型,就连时尚杂志《COSMO》都采用 AI 来设计杂志封面 。
图片来源:COSMO 杂志

TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
然而令许多人没想到是:
就在各家硅谷大厂斥巨资研发、砸了无数的人力、发了无数的论文,却还在测试相关技术的时候,TikTok 居然异军突起,首先把 AI 文字转图片做到了产品里,而且直接交到了全球十亿用户的手上……
乱拳打死老师傅,中国速度太快了
在 TikTok 的特效菜单下,最近增加了一个名叫“AI 绿幕” (AI Greenscreen) 的新选项 。
点击这个选项,然后在屏幕中间的对话框里输入一段文字描述,只用不到5秒的时间,TikTok 就可以根据文字描述生成一张竖版画作,用作短视频的背景:
图片来源:硅星人截图
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
TikTok 用的这个文字转图片模型,还是非常简单的 。硅星人测试了几个含义大相径庭的提示,生成的图片可以说都十分的“迷幻",没有任何写实色彩 。
但这并不是缺点点——正相反,生成结果具有非常强的水彩/油画感觉,风格迁移 (style transfer) 的痕迹明显,而且用的颜色也都鲜亮明快,给人一种耳目一新的感受 。
图片来源:TechCrunch 截图
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
我还想单独说一下下面我自己生成的图片:
下图左边的提示字段是知名游戏“最后生还者” 。生成结果的辨识度太高了,这不正是游戏主角 Ellie 被泥浆血水浸湿的头发吗?
右图更有意思,提示是“轰炸”:我完全没有想到如此“不和谐”的字段,TikTok 的模型居然生成的结果却相当的“自洽”,特别是图中的“轰炸机”反而看起来像是代表和平的“白鸽”——是否你也能读出一点讽刺的意味?
图片来源:硅星人截图
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
当然话说回来,这些只是我自己的解读和感受,绝不可能是模型的“本意” 。但是有趣的艺术作品不正应该是这样嘛,让人能够发现一些巧妙的“彩蛋”,甚至浮想联翩,解读出另外的含义 。
从这一角度,我还是非常认可 TikTok 目前部署的这个模型的 。
模型的质量也值得一提 。The Verge、TechCrunch 等美国媒体测试了一些特殊的敏感字段,AI 绿幕生成结果更加抽象了,显示出字节部署的模型在争议字段上可能已经做出了提前规避 。
要知道 AI 文字生成图片本来就不是简单技术,避免争议/道德风险更是一项相当复杂的工作 。
图片来源:The Verge 截图
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
正如文章前面提到,谷歌、OpenAI 等巨头公司和知名机构开发的 AI 文字生成图片模型,目前都处于刚刚发布或者小范围测试,还在“纸上谈兵”的阶段 。
这边 TikTok 不仅很快跟进推出了同类模型,更厉害的是已经将其投放到全球十亿用户量级别的产品里了 。
本来以为 AI 艺术创作的潮流还是几个硅谷大厂在引领,没想到字节跳动居然“乱拳打死老师傅”——必须给中国互联网科技公司的工作速度和质量点赞了 。
AI创作成潮流,硅谷大厂挤破头
早在2020年,全球知名的人工智能基础科研机构 OpenAI 发布了一个名为 GPT-3 语言模型 。当时 OpenAI 的论文题为“Language Models are Few-Shot Learners”,直接点出了超大规模语言模型在多种非训练人物上具备强大、快速的学习和掌握能力 。
GPT-3 也完全没令人失望,在小范围开放测试 API 之后,外界人士用它开发出了各种各样神奇的 demo,展示了写段子、翻译公式、解数学题、完成用户界面设计、生成财务报表等能力 。
“AI 文字生成图片” 也是这些能力的其中一项 。
图片来源:硅星人
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
包括 OpenAI、谷歌、Midjourney、Stability AI 等一众大小公司,已经开发出了多个文字转图片生成模型,展示出神经网络模型具备令人惊讶的艺术创作能力 。


推荐阅读