链世界:一种简单而有效的人类行为Agent模型强化学习框架( 二 )


一是通过提供一些正向的反馈或奖励 , 来提高人类的折扣因子,从而增强人类对长期目标的关注 。例如,人工智能可以通过发送一些鼓励的信息或提供一些小礼物 , 来激励一个想要戒烟的人坚持他的计划 。
二是通过提供一些便利的工具或服务,来降低人类执行任务的成本 , 从而增加人类的收益 。例如,人工智能可以通过提供一些个性化的运动计划或设备,来帮助一个想要减肥的人坚持他的计划 。
三是通过提供一些有用的信息或建议,来降低人类执行任务的不确定性 , 从而减少人类的风险 。例如,人工智能可以通过提供一些有效的学~~~
接下来,我们来看看什么是链世界(ChainWorld),以及为什么它是一种简单而有效的人类模型 。链世界是一种由作者提出的人类MDP模型,它可以用来描述人类在摩擦性任务中的行为 。

链世界:一种简单而有效的人类行为Agent模型强化学习框架

文章插图
图2:链世界的图形表示 。
链世界的基本结构如下:
链世界由
【链世界:一种简单而有效的人类行为Agent模型强化学习框架】


推荐阅读