一文看尽SOTA生成式模型:9大类别21个模型全回顾!( 四 )


文章插图
该方法基于深度强化学习方法,其中智能体AlphaTensor的训练过程就是玩一个单人游戏,目标是在有限的因子空间内寻找张量分解 。
在TensorGame的每一步,玩家需要选择如何结合矩阵的不同entries来进行乘法,并根据达到正确的乘法结果所需的操作数量来获得奖励分数 。AlphaTensor使用一种特殊的神经网络架构来利用合成训练游戏(synthetic training game)的对称性 。
GATO
该模型是由Deepmind开发的通用智能体,它可以作为一个多模态、多任务或多embodiment泛化策略来使用 。
具有相同权重的同一个网络可以承载非常不同的能力,从玩雅达利游戏、描述图片、聊天、堆积木等等 。

一文看尽SOTA生成式模型:9大类别21个模型全回顾!

文章插图
在所有任务中使用单一的神经序列模型有很多好处,减少了手工制作具有自身归纳偏见策略模型的需要,并增加了训练数据的数量和多样性 。
这种通用智能体在大量任务中都取得了成功,并且可以用很少的额外数据进行调整,以便在更多的任务中取得成功 。
目前GATO大约有1.2B个参数,可以实时控制现实世界机器人的模型规模 。
一文看尽SOTA生成式模型:9大类别21个模型全回顾!

文章插图
其他已发表的生成性人工智能模型包括生成human motion等 。
参考资料:
https://arxiv.org/abs/2301.04655




推荐阅读