文章插图
新智元报道
编辑:LRS
【新智元导读】一次学完所有生成式模型!
过去的两年时间里,AI界的大型生成模型发布呈井喷之势,尤其是Stable Diffusion开源和ChatGPT开放接口后,更加激发了业界对生成式模型的热情 。
但生成式模型种类繁多,发布速度也非常快,稍不留神就有可能错过了sota
文章插图
最近,来自西班牙科米利亚斯主教大学的研究人员全面回顾了各个领域内AI的最新进展,将生成式模型按照任务模态、领域分为了九大类,并总结了2022年发布的21个生成式模型,一次看明白生成式模型的发展脉络!
【一文看尽SOTA生成式模型:9大类别21个模型全回顾!】
文章插图
论文链接:https://arxiv.org/abs/2301.04655
生成式AI分类
模型可以按照输入和输出的数据类型进行分类,目前主要包括9类 。
文章插图
有趣的是,在这些已发布大模型的背后,只有六个组织(OpenAI, google, DeepMind, Meta, runway, Nvidia)参与部署了这些最先进的模型 。
文章插图
其主要原因是,为了能够估计这些模型的参数,必须拥有极其庞大的计算能力,以及在数据科学和数据工程方面高度熟练且经验丰富的团队 。
因此,也只有这些公司,在收购的初创公司和与学术界合作的帮助下,能够成功部署生成式人工智能模型 。
在大公司参与初创企业方面,可以看到微软向OpenAI投资了10亿美元,并帮助他们开发模型;同样,谷歌在2014年收购了Deepmind 。
在大学方面,VisualGPT是由阿卜杜拉国王科技大学(KAUST)、卡内基梅隆大学和南洋理工大学开发的,Human Motion Diffusion模型是由以色列特拉维夫大学开发的 。
同样,其他项目也是由一家公司与一所大学合作开发的,比如Stable Diffusion由Runway、Stability AI和慕尼黑大学合作开发;Soundify由Runway和卡内基梅隆大学合作开发;DreamFusion由谷歌和加州大学伯克利分校合作 。
Text-to-image模型
DALL-E 2
由OpenAI开发的DALL-E 2能够从由文本描述组成的提示中生成原始、真实、逼真的图像和艺术,而且OpenAI已经对外提供了API来访问该模型 。
DALL-E 2特别之处在于它能够将概念、属性和不同风格结合起来,其能力源于语言-图像预训练模型CLIP神经网络,从而可以用自然语言来指示最相关的文本片段 。
文章插图
具体来说,CLIP embedding有几个理想的属性:能够对图像分布进行稳定的转换;具有强大的zero-shot能力;并且在微调后实现了最先进的结果 。
为了获得一个完整的图像生成模型,CLIP图像embedding解码器模块与一个先验模型相结合,从一个给定的文本标题中生成相关CLIP图像embedding
文章插图
其他的模型还包括Imagen,Stable Diffusion,Muse
Text-to-3D模型
对于某些行业,仅能生成2D图像还无法完成自动化,比如游戏领域就需要生成3D模型 。
Dreamfusion
DreamFusion由Google Research开发,使用预先训练好的2D文本到图像的扩散模型来进行文本到3D的合成 。
Dreamfusion使用一个从二维扩散模型的蒸馏中得到的损失取代了CLIP技术,即扩散模型可以作为一个通用的连续优化问题中的损失来生成样本 。
推荐阅读
- 一文详解计算机网络IP地址和子网掩码
- 一文看懂什么是市盈率 什么是动态市盈率
- 一文看懂裁判手势 足球裁判手势
- 一文讲明白傅里叶变换! 傅里叶变换的意义
- 一文读懂中国最难懂的小说 褐色鸟群
- 一文读懂《创新者的窘境》 创新者的窘境在线阅读
- 一文读懂供应链金融 供应链金融网络的形成
- 五险和社保有什么区别,一文带你了解两者的区别
- dior是什么意思啊,一文带你了解奢侈品迪奥的发展史
- 单数和双数的定义,一文让小孩快速掌握这两者的定义