一文看尽SOTA生成式模型：9大类别21个模型全回顾！( 二 ) _SOTA

文章插图
相比其他方法主要是对像素进行采样，在参数空间的采样比在像素空间的采样要难得多，DreamFusion使用了一个可微的生成器，专注于创建从随机角度渲染图像的三维模型。

文章插图
其他模型如Magic3D由英伟达公司开发。
Image-to-Text模型
获得一个描述图像的文本也是很有用的，相当于图像生成的逆版本。
Flamingo
该模型由Deepmind开发，在开放式的视觉语言任务上，只需通过一些输入/输出例子的提示，即可进行few-shot学习。

文章插图
具体来说，Flamingo的输入包含视觉条件下的自回归文本生成模型，能够接收与图像或视频交错的文本token序列，并生成文本作为输出。
用户可以向模型输入query，并附上一张照片或一段视频，模型就会用文本答案来回答。

文章插图
Flamingo模型利用了两个互补的模型：一个是分析视觉场景的视觉模型，一个是执行基本推理形式的大型语言模型。
VisualGPT
VisualGPT是一个由OpenAI开发的图像描述模型，能够利用预训练语言模型GPT-2中的知识。
为了弥合不同模态之间的语义差距，研究人员设计了一个全新的编码器-解码器注意力机制，具有整流门控功能。

文章插图
VisualGPT最大的优点是它不需要像其他图像到文本模型那样多的数据，能够提高图像描述模型的数据效率，能够在小众领域得到应用或对少见的物体的进行描述。
Text-to-Video模型
Phenaki
该模型由Google Research开发制作，可以在给定一连串文字提示的情况下，进行真实的视频合成。
Phenaki是第一个能够从开放域时间变量提示中生成视频的模型。
为了解决数据问题，研究人员在一个大型的图像-文本对数据集以及数量较少的视频-文本例子上进行联合训练，最终获得了超越视频数据集中的泛化能力。
主要是图像-文本数据集往往有数十亿的输入数据，而文本-视频数据集则小得多，并且对不同长度的视频进行计算也是一个难题。

文章插图
Phenaki模型包含三个部分：C-ViViT编码器、训练Transformer和视频生成器。

文章插图
将输入token转换为embedding后，接着经过时序Transformer和空间Transformer，再使用一个没有激活的单一线性投影，将token映射回像素空间。
最终模型可以生成以开放域提示为条件的时间连贯性和多样性的视频，甚至能够处理一些数据集中不存在的新概念。
相关模型包括Soundify.
Text-to-Audio模型
对于视频生成来说，声音也是必不可缺的部分。
AudioLM
该模型是由谷歌开发，可用于生成高质量的音频，并具有长距离一致性。
AudioLM的特别之处在于将输入的音频映射成一个离散的token序列，并将音频生成作为该表示空间的语言建模任务。
通过对原始音频波形的大型语料库进行训练，AudioLM成功学会了在简短的提示下生成自然和连贯的连续的语音。这种方法甚至可以扩展到人声之外的语音，比如连续的钢琴音乐等等，而不需要在训练时添加符号表示。