和采用全注意力机制的DiT相比 , 随着帧数的增加,STDiT实现了高达5倍的加速效果 , 这在处理长视频序列等现实任务中尤为关键 。
文章插图
欢迎持续关注Open-Sora开源项目:https://github.com/hpcaitech/Open-Sora
作者团队提及,他们将会继续维护和优化Open-Sora项目 , 预计将使用更多的视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性,切实推进AI技术在电影、游戏、广告等领域的落地 。
参考资料:
[1] https://arxiv.org/abs/2212.09748 Scalable Diffusion Models with Transformers
[2] https://arxiv.org/abs/2310.00426 PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
[3] https://arxiv.org/abs/2311.15127 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
[4] https://arxiv.org/abs/2401.03048 Latte: Latent Diffusion Transformer for Video Generation
[5] https://huggingface.co/stabilityai/sd-vae-ft-mse-original
[6] https://github.com/google-research/text-to-text-transfer-transformer
[7] https://github.com/haotian-liu/LLaVA
[8] https://hpc-ai.com/blog/open-sora-v1.0
【别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元】
推荐阅读
- AI程序员Devin:通过了面试,但不一定适合职场
- 微软AI程序员登场,10倍AI工程师真来了?996自主生成代码,性能超GPT-4 30%
- 与OpenAI合作13天后,Figure人形机器人展示与人类对话能力
- 为什么再好的朋友也别一起旅游?很可能旅游后就闹掰了
- 香港这一晚,古天乐脸垮成了蜡像,叶子楣满脸的科技感,63岁梁朝伟赢麻了
- 微信如何查看自己加了多少群
- 手机“报废”会出现3种征兆,如果你发现了,建议选择更换新手机
- 谁将你的微信删除、拉黑了?点击这个“开关”,可以直接显示出来
- 朋友圈隐密功能上热搜!出现这条线,代表你被删了?!
- 《与凤行》:顶着肥头大耳却要饰演仙界美人,谁的审美出了问题