爆火Sora背后的技术，一文综述扩散模型的最新发展方向( 三 ) _Sora

时间序列生成
时间序列数据的建模是在金融、气候科学、医疗等领域中进行预测和分析的关键技术。扩散模型由于其能够生成高质量的数据样本，已经被用于时间序列数据的生成。在这个领域，扩散模型通常被设计为考虑时间序列数据的时序依赖性和周期性。例如， CSDI（Conditional Sequence Diffusion Interpolation）是一种模型，它利用了双向卷积神经网络结构来生成或插补时间序列数据点。它在医疗数据生成和环境数据生成方面表现出色。其他模型如 DiffSTG 和 TimeGrad 通过结合时空卷积网络，能够更好地捕捉时间序列的动态特性，并生成更加真实的时间序列样本。这些模型通过自我条件指导的方式，逐渐从高斯噪声中恢复出有意义的时间序列数据。
音频生成
音频生成涉及到从语音合成到音乐生成等多个应用场景。由于音频数据通常包含复杂的时间结构和丰富的频谱信息，扩散模型在此领域同样表现出潜能。例如，WaveGrad 和 DiffSinger 是两种扩散模型，它们利用条件生成过程来产生高质量的音频波形。WaveGrad 使用 Mel 频谱作为条件输入，而 DiffSinger 则在这个基础上添加了额外的音乐信息，如音高和节奏，从而提供更精细的风格控制。文本到语音（TTS）的应用中，Guided-TTS 和 Diff-TTS 将文本编码器和声学分类器的概念结合起来，生成既符合文本内容又遵循特定声音风格的语音。Guide-TTS2 进一步展现了如何在没有明确分类器的情况下生成语音，通过模型自身学习到的特征引导声音生成。
分子设计
在药物设计、材料科学和化学生物学等领域，分子设计是发现和合成新化合物的重要环节。扩散模型在这里作为一种强大的工具，能够高效探索化学空间，生成具有特定性质的分子。在无条件的分子生成中，扩散模型不依赖于任何先验知识，自发地生成分子结构。而在跨模态生成中，模型可能会结合特定的功能条件，例如药效或目标蛋白的结合倾向，来生成具有所需性质的分子。基于序列的方法可能会考虑蛋白质序列来引导分子的生成，而基于结构的方法则可能使用蛋白质的三维结构信息。这样的结构信息可以在分子对接或者抗体设计中被用作先验知识，从而提高生成分子的质量。
图生成
使用扩散模型生成图，旨在更好地理解和模拟现实世界的网络结构和传播过程。这种方法帮助研究人员挖掘复杂系统中的模式和相互作用，预测可能的结果。应用包括社交网络、生物网络分析以及图数据集的创建。传统方法依赖于生成邻接矩阵或节点特征，但这些方法可扩展性差，实用性有限。因此，现代图生成技术更倾向于根据特定条件生成图。例如，PCFI 模型使用图的一部分特征和最短路径预测来引导生成过程；EDGE 和 DiffFormer 分别用节点度和能量约束来优化生成；D4Explainer 则通过结合分布和反事实损失来探索图的不同可能性。这些方法提高了图生成的精确度和实用性。

文章插图
结论与展望
数据限制下的挑战
除了推理速度低外，扩散模型在从低质量数据中辨识模式和规律时也常常遇到困难，导致它们无法泛化到新的场景或数据集。此外，处理大规模数据集时也会出现计算上的挑战，如延长的训练时间、过度的内存使用，或者无法收敛到期望的状态，从而限制了模型的规模和复杂性。更重要的是，有偏差或不均匀的数据采样会限制模型生成适应不同领域或人群的输出的能力。
可控的基于分布的生成
提高模型理解和生成特定分布内样本的能力对于在有限数据情况下实现更好的泛化至关重要。通过专注于识别数据中的模式和相关性，模型可以生成与训练数据高度匹配并满足特定要求的样本。这需要有效的数据采样、利用技术以及优化模型参数和结构。最终，这种增强的理解能力允许更加控制和精确的生成，从而改善泛化性能。
利用大型语言模型的高级多模态生成
扩散模型的未来发展方向涉及通过整合大型语言模型（LLMs）来推进多模态生成。这种整合使模型能够生成包含文本、图像和其他模态组合的输出。通过纳入 LLMs，模型对不同模态间相互作用的理解得到增强，生成的输出更加多样化和真实。此外，LLMs 显著提高了基于提示的生成效率，通过有效利用文本与其他模态之间的联系。另外，LLMs 作为催化剂，提高了扩散模型的生成能力，扩大了它可以生成模态的领域范围。

爆火Sora背后的技术，一文综述扩散模型的最新发展方向( 三 )

推荐阅读

雪花秀适合什么年龄段的人使用？

搞笑闽吴|说出一句流传千年的话，却死的不明不白挺遗憾，此人射术堪比黄忠

石竹的摆放技巧石竹怎么盆栽

洋哥爱生活|紫荆花开，红鸾再现，旧爱拉扯，情有余温，余生共相随，15天后

小了白了兔|凭此拿到近两万奖学金, 邻近毕业却后悔不已!，我在大学干团支书,

|还能盼来“吃猪自由”吗？，中国冻猪肉储备恐耗尽

脚气怎么治疗，推荐五个有效的方法

香蕉每次可以吃多少根

大家吃完火锅一般喝啥来降火中国好凉茶吗

【生肖小哥哥6514252305】不露锋芒，装傻能力一流，不容小觑，这几个星座“外傻内精”

恒大|恒大深夜发声：成立24年共借款20523笔，从未有利息晚付、本金逾期归还

录屏器下载在什么地方？好用的录屏器软件分享

中国设计中心|特斯拉中国设计中心正在招聘或推中国风电动车

属马@未来三个月，4属相迎来好运，大富大贵，家庭幸福美满，吉祥安康

最高可享12期免息海信阅读手机A5京东聚惠来袭

烹饪|晒晒我家一周的午餐，简单好吃不浪费，网友：一看就是北方人餐桌

鸡胸肉|自用抑菌液测评分享！不愧是宝藏国货，短短45天新甲蹭蹭冒！

出手|比九灵元圣还厉害的妖怪，他一出手三界就会动乱

李宇春|女人味穿搭都可以跟李宇春学了！穿短裙配高筒靴，撩人有范儿极了

瘦子增肌健身教练使用方法