文章插图
该方法基于深度强化学习方法,其中智能体AlphaTensor的训练过程就是玩一个单人游戏,目标是在有限的因子空间内寻找张量分解 。
在TensorGame的每一步,玩家需要选择如何结合矩阵的不同entries来进行乘法,并根据达到正确的乘法结果所需的操作数量来获得奖励分数 。AlphaTensor使用一种特殊的神经网络架构来利用合成训练游戏(synthetic training game)的对称性 。
GATO
该模型是由Deepmind开发的通用智能体,它可以作为一个多模态、多任务或多embodiment泛化策略来使用 。
具有相同权重的同一个网络可以承载非常不同的能力,从玩雅达利游戏、描述图片、聊天、堆积木等等 。
文章插图
在所有任务中使用单一的神经序列模型有很多好处,减少了手工制作具有自身归纳偏见策略模型的需要,并增加了训练数据的数量和多样性 。
这种通用智能体在大量任务中都取得了成功,并且可以用很少的额外数据进行调整,以便在更多的任务中取得成功 。
目前GATO大约有1.2B个参数,可以实时控制现实世界机器人的模型规模 。
文章插图
其他已发表的生成性人工智能模型包括生成human motion等 。
参考资料:
https://arxiv.org/abs/2301.04655
推荐阅读
- 一文详解计算机网络IP地址和子网掩码
- 一文看懂什么是市盈率 什么是动态市盈率
- 一文看懂裁判手势 足球裁判手势
- 一文讲明白傅里叶变换! 傅里叶变换的意义
- 一文读懂中国最难懂的小说 褐色鸟群
- 一文读懂《创新者的窘境》 创新者的窘境在线阅读
- 一文读懂供应链金融 供应链金融网络的形成
- 五险和社保有什么区别,一文带你了解两者的区别
- dior是什么意思啊,一文带你了解奢侈品迪奥的发展史
- 单数和双数的定义,一文让小孩快速掌握这两者的定义