一文看尽SOTA生成式模型：9大类别21个模型全回顾！( 三 ) _SOTA

文章插图
由于音频信号涉及多个尺度（scale）的抽象，所以音频合成时使得多尺度在显示一致性的同时实现高音频质量非常具有挑战性。AudioLM模型通过结合神经音频压缩、自监督表示学习和语言建模方面的最新进展来实现。
在主观评价方面，评分者被要求听一个10秒的样本，并决定它是人类讲话还是合成的语音。基于收集到的1000个评分，比率为51.2%，与随机分配标签没有统计学差异，即人类无法区分合成和真实的样本。
其他相关模型包括Jukebox和Whisper
Text-to-Text模型
问答任务常用。
ChatGPT
广受欢迎的ChatGPT由OpenAI开发，以对话的方式与用户进行互动。
用户提出一个问题，或是提示文本的前半部分，模型会补全后续部分，并且能够识别出不正确的输入前提并拒绝不恰当的请求。
具体来说，ChatGPT背后的算法是Transformer，训练过程主要是人类反馈的强化学习。

文章插图
最初的模型是使用监督学习下的微调来训练的，然后由人类来提供对话，在对话中他们互相扮演用户和人工智能助理，然后由人修正模型返回的回复，并用正确的答案帮助模型改进。
将制作的数据集与InstructGPT的数据集混合在一起，转换为对话格式。
其他相关模型包括LaMDA和PEER
Text-to-Code模型
和text-to-text类似，只不过生成的是特殊类型的文本，即代码。
Codex
该模型由OpenAI开发，可以将文本翻译成代码。
Codex是一种通用的编程模型，基本上可以应用于任何编程任务。
人类在编程时的活动可以分为两部分：1）将一个问题分解成更简单的问题；2）将这些问题映射到已经存在的现有代码（库、API或函数）中。
其中第二部分是对程序员来说最浪费时间的部分，也是Codex最擅长的地方。

文章插图
训练数据于2020年5月从GitHub上托管的公共软件库中进行收集，包含179GB的Python/ target=_blank class=infotextkey>Python文件，并在GPT-3的基础上进行微调，其中已经包含了强大的自然语言表征。
相关模型还包括Alphacode
Text-to-Science模型
科研文字也是AI文本生成的目标之一，但要取得成果仍然有很长的路要走。
Galactica
该模型是由Meta AI和Papers with Code联合开发的，可用于自动组织科学文本的大型模型。
Galactica的主要优势在于即便进行多个episode的训练后，模型仍然不会过拟合，并且上游和下游的性能会随着token的重复使用而提高。
并且数据集的设计对该方法至关重要，因为所有的数据都是以通用的markdown格式处理的，从而能够混合不同来源的知识。

文章插图
引文（citations）通过一个特定的token来处理，使得研究人员可以在任何输入上下文中预测一个引文。Galactica模型预测引文的能力会随着规模的提升而提高。
此外，该模型在仅有解码器的设置中使用了一个Transformer架构，对所有尺寸的模型进行了GeLU激活，从而可以执行涉及SMILES化学公式和蛋白质序列的多模态任务，
Minerva
Minerva的主要目的就是解决决数学和科学问题，为此收集了大量的训练数据，并解决了定量推理问题，大规模模型开发问题，还采用了一流的推理技术。
Minerva采样语言模型架构通过使用step-by-step推理来解决输入的问题，即输入是需要包含计算和符号操作，而不用引入外部工具。
其他模型
还有一些模型不属于前面提到的类别。
AlphaTensor
由Deepmind公司开发，因其发现新算法的能力，在业界是一个完全革命性的模型。
在已公布的例子中，AlphaTensor创造了一种更有效的矩阵乘法算法。这种算法非常重要，从神经网络到科学计算程序都可以从这种高效率的乘法计算中受益。