引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了( 二 )


应用层基于核心层的模组提供强化学习算法的实现(rllte.agent)、预训练(Pre-trAIning)、模型部署(Deployment)以及开发助手(Copilot) 。
工具层为任务设计(rllte.env)、模型评估(rllte.evaluation)以及基线数据(rllte.hub)提供方便的应用接口 。
用户可以直接调用 RLLTE 实现好的算法进行训练,例如使用 DrQ-v2 算法解决视觉控制任务:

引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了

文章插图
开始训练,将会看到以下输出:

引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了

文章插图
或者,使用内置的算法原型和模块进行快速算法开发:

引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了

文章插图
使用 RLLTE,开发者只需几十行代码即可实现 A2C 等知名强化学习算法 。并且,对于实现好的算法 , 开发者可以更换其内置模块以进行性能比较和算法改进 。例如,比较不同的 Encoder 对同一算法性能的影响:

引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了

文章插图
对于训练好的模型 , 开发者可以调用 rllte.evaluation 中的工具进行算法评估和可视化:

引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了

文章插图
在学术研究中,使用 rllte.hub 快速获取算法的训练数据和模型参数:

引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了

文章插图
大语言模型融入 RL 框架
RLLTE 是首个尝试引入大语言模型的强化学习框架 , 以此来降低开发者的学习成本,以及协助进行强化学习应用的开发 。

引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了

文章插图
RLLTE 参考了 LocalGPT 等项目的设计理念,开发了 Copilot , 无需额外训练并且保证用户数据的绝对隐私 。其首先使用 instructor embedding 工具对由项目文档、教程以及强化学习论文等构成的语料库进行处理,以建立本地化的向量数据库 , 然后使用诸如 Vicuna-7B 的大模型对问题进行理解,并基于该向量数据库给出答案 。用户可以根据自己的算力情况自由更换基础模型,未来我们也将进一步丰富该语料库并添加更多高级功能来实现更加智能的强化学习专属 Copilot 。
作为一个长期演进的强化学习框架,RLLTE 未来将持续跟踪最新的研究进展并提供高质量的算法实现,以适应开发者变化的需求并对强化学习社区产生积极影响 。

【引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了】


推荐阅读