揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿( 三 )


He,Kaiming, et al. “Masked autoencoders are scalable vision learners.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
  • 论文标题:Masked autoencoders are scalable vision learners
  • 作者:Kaiming He、Xinlei Chen、Saining Xie、Yanghao Li、Piotr Dollar、Ross Girshick
  • 机构:Meta
  • 论文链接:https://arxiv.org/abs/2111.06377
这篇论文展示了一种被称为掩蔽自编码器(masked autoencoders , MAE)的新方法,可以用作计算机视觉的可扩展自监督学习器 。MAE 的方法很简单:掩蔽输入图像的随机区块并重建丢失的像素 。它基于两个核心理念:研究人员开发了一个非对称编码器 - 解码器架构,其中一个编码器只对可见的 patch 子集进行操作(没有掩蔽 token),另一个简单解码器可以从潜在表征和掩蔽 token 重建原始图像 。研究人员进一步发现,掩蔽大部分输入图像(例如 75%)会产生重要且有意义的自监督任务 。结合这两种设计,就能高效地训练大型模型:提升训练速度至 3 倍或更多 , 并提高准确性 。
用 MAE 做 pre-training 只需 ImageNet-1k 就能达到超过 87% 的 top 1 准确度 , 超过了所有在 ImageNet-21k pre-training 的 ViT 变体模型 。从方法上,MAE 选择直接重建原图的元素,而且证明了其可行性,改变了人们的认知,又几乎可以覆盖 CV 里所有的识别类任务,开启了一个新的方向 。
具有良好扩展性的简单算法是深度学习的核心 。在 NLP 中,简单的自监督学习方法(如 BERT)可以从指数级增大的模型中获益 。在计算机视觉中,尽管自监督学习取得了进展,但实际的预训练范式仍是监督学习 。在 MAE 研究中 , 研究人员在 ImageNet 和迁移学习中观察到自编码器 —— 一种类似于 NLP 技术的简单自监督方法 —— 提供了可扩展的前景 。视觉中的自监督学习可能会因此走上与 NLP 类似的轨迹 。
机器之心报道:《大道至简,何恺明新论文火了:Masked Autoencoders 让计算机视觉通向大模型》
Rombach, Robin,et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
  • 论文标题:High-resolution image synthesis with latent diffusion models
  • 作者:Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser、Bjorn Ommer
  • 机构:慕尼黑大学、Runway
  • 论文链接:https://arxiv.org/pdf/2112.10752.pdf
基于这篇论文的成果,Stable Diffusion 正式面世,开启了在消费级 GPU 上运行文本转图像模型的时代 。
该研究试图利用扩散模型实现文字转图像 。尽管扩散模型允许通过对相应的损失项进行欠采样(undersampling)来忽略感知上不相关的细节 , 但它们仍然需要在像素空间中进行昂贵的函数评估,这会导致对计算时间和能源资源的巨大需求 。该研究通过将压缩与生成学习阶段显式分离来规避这个问题,最终降低了训练扩散模型对高分辨率图像合成的计算需求 。
机器之心报道:《消费级 GPU 可用,文本转图像开源新模型生成宇宙变迁大片》
Gupta, Agrim, et al. “Photorealistic video generation with diffusion models.” arXiv preprint arXiv:2312.06662 (2023).
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
  • 论文标题:Photorealistic Video Generation with Diffusion Models
  • 作者:李飞飞等
  • 机构:斯坦福大学、谷歌研究院、佐治亚理工学院
  • 论文链接:https://arxiv.org/pdf/2312.06662.pdf
在 Sora 之前 , 一项视频生成研究收获了大量赞誉:Window Attention Latent Transformer,即窗口注意力隐 Transformer,简称 W.A.L.T 。该方法成功地将 Transformer 架构整合到了隐视频扩散模型中,斯坦福大学的李飞飞教授也是该论文的作者之一 。
值得注意的是,尽管概念上很简单,但这项研究首次在公共基准上通过实验证明 Transformer 在隐视频扩散中具有卓越的生成质量和参数效率 。
这也是 Sora 32 个公开参考文献中,距离此次发布最近的一项成果 。


推荐阅读