别等OpenAI了，全球首个类Sora抢先开源！所有训练细节/模型权重全公开，成本仅1万美元( 二 ) _Sora

第二阶段：大规模视频预训练
第二阶段执行大规模视频预训练，增加模型泛化能力，有效掌握视频的时间序列关联。
我们了解到，这个阶段需要使用大量视频数据训练，保证视频题材的多样性，从而增加模型的泛化能力。第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块，用于学习视频中的时序关系。
其余模块与第一阶段保持一致，并加载第一阶段权重作为初始化，同时初始化时序注意力模块输出为零，以达到更高效更快速的收敛。
Colossal-AI团队使用了PixArt-alpha[2]的开源权重作为第二阶段STDiT模型的初始化，以及采用了T5 [6]模型作为文本编码器。同时他们采用了256x256的小分辨率进行预训练，进一步增加了收敛速度，降低训练成本。
第三阶段：高质量视频数据微调
第三阶段对高质量视频数据进行微调，显著提升视频生成的质量。
作者团队提及第三阶段用到的视频数据规模比第二阶段要少一个量级，但是视频的时长、分辨率和质量都更高。通过这种方式进行微调，他们实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。
作者团队表示，在Open-Sora的复现流程中，他们使用了64块H800进行训练。
第二阶段的训练量一共是2808 GPU hours，约合7000美元。第三阶段的训练量是1920 GPU hours，大约4500美元。经过初步估算，整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。
数据预处理
为了进一步降低Sora复现的门槛和复杂度，Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本，让大家可以轻松启动Sora复现预训练，包括公开视频数据集下载，长视频根据镜头连续性分割为短视频片段，使用开源大语言模型LLaVA [7]生成精细的提示词。
作者团队提到他们提供的批量视频标题生成代码可以用两卡3秒标注一个视频，并且质量接近于GPT-4V 。最终得到的视频/文本对可直接用于训练。
借助他们在GitHub上提供的开源代码，我们可以轻松地在自己的数据集上快速生成训练所需的视频/文本对，显著降低了启动Sora复现项目的技术门槛和前期准备。

文章插图
基于数据预处理脚本自动生成的视频/文本对
模型生成效果展示
下面我们来看一下Open-Sora实际视频生成效果。比如让Open-Sora生成一段在悬崖海岸边，海水拍打着岩石的航拍画面。

文章插图
再让Open-Sora去捕捉山川瀑布从悬崖上澎湃而下，最终汇入湖泊的宏伟鸟瞰画面。

文章插图
除了上天还能入海，简单输入prompt ，让Open-Sora生成了一段水中世界的镜头，镜头中一只海龟在珊瑚礁间悠然游弋。

文章插图
Open-Sora还能通过延时摄影的手法，向我们展现了繁星闪烁的银河。

文章插图
如果你还有更多视频生成的有趣想法，可以访问Open-Sora开源社区获取模型权重进行免费的体验。
链接：https://github.com/hpcaitech/Open-Sora
值得注意的是，作者团队在Github上提到目前版本仅使用了400K的训练数据，模型的生成质量和遵循文本的能力都有待提升。例如在上面的乌龟视频中，生成的乌龟多了一只脚。Open-Sora 1.0也并不擅长生成人像和复杂画面。
作者团队在Github上列举了一系列待做规划，旨在不断解决现有缺陷，提升生成质量。
高效训练加持
除了大幅降低Sora复现的技术门槛，提升视频生成在时长、分辨率、内容等多个维度的质量，作者团队还提供了Colossal-AI加速系统进行Sora复现的高效训练加持。
通过算子优化和混合并行等高效训练策略，在处理64帧、512x512分辨率视频的训练中，实现了1.55倍的加速效果。
同时，得益于Colossal-AI的异构内存管理系统，在单台服务器上（8 x H800）可以无阻碍地进行1分钟的1080p高清视频训练任务。