链世界:一种简单而有效的人类行为Agent模型强化学习框架

强化学习是一种机器学习的方法,它通过让智能体(Agent)与环境交互,从而学习如何选择最优的行动来最大化累积的奖励 。强化学习在许多领域都有广泛的应用,例如游戏、机器人、自动驾驶等 。强化学习也可以用于干预人类的行为 , 帮助人类实现他们的长期目标,例如戒烟、减肥、健身等 。这些任务通常是摩擦性的,也就是说,它们需要人类付出长期的努力 , 而不是立即获得满足 。在这些任务中,人类往往表现出有限的理性,也就是说他们的行为并不总是符合他们的最佳利益,而是受到一些认知偏差、情绪影响、环境干扰等因素的影响 。因此,如何用强化学习干预人类的有限理性,使其在摩擦性的任务中表现更好,是一个具有重要意义和挑战性的问题 。
为了解决这个问题,一篇最近发表在AAMAS2024会议上的论文《Reinforcement Learning Interventions on Boundedly Rational Human Agents in Frictionful Tasks》提出了一种行为模型强化学习(BMRL)的框架 , 用于让人工智能干预人类在摩擦性任务中的行为 。该论文的作者是来自哈佛大学、剑桥大学和密歇根大学的五位研究人员,他们分别是Eura Nofshin、Siddharth Swaroop、Weiwei Pan、Susan Murphy和Finale Doshi-Velez 。他们的研究受到了Simons Foundation、National Science Foundation、National Institute of Biomedical Imaging and Bioengineering等机构的资助 。他们的论文的主要贡献有以下几点:
1)他们提出了一种新的Agent模型 , 称为链世界(ChAInWorld) , 用于描述Agent在摩擦性任务中的行为 。链世界是一种简单的马尔可夫决策过程(MDP)模型,其中Agent可以选择执行或跳过任务,从而增加或减少他们达到目标的概率 。人工智能可以通过改变Agent的折扣因子或奖励来影响人类的决策 。链世界的优点是它可以快速地对人类进行个性化 , 也可以解释人类的行为背后的原因 。
2)他们引入了一种基于BMRL的Agent模型之间的等价性的概念,用于判断不同的Agent模型是否会导致相同的人工智能干预策略 。他们证明了链世界是一类更复杂的人类MDP的等价模型,只要它们导致相同的三窗口人工智能策略,即由无效窗口、干预窗口和无需干预窗口组成的策略 。他们还给出了一些与链世界等价的更复杂的人类MDP的例子,例如单调链世界、进展世界和多链世界,这些模型可以捕捉一些与人类行为相关的有意义的特征 。
3)他们通过实验分析了链世界的鲁棒性,即当真实的Agent模型与链世界不完全匹配或不等价时,人工智能使用链世界进行干预的性能如何 。他们发现链世界是一种有效且鲁棒的Agent模型,可以用于设计人工智能干预策略 , 在大多数情况下,它可以达到或接近最佳的性能,即使在一些极端的情况下,它也可以保持一定的水平 。
我们将对这篇论文的主要内容进行更详细的解读和分析,从而帮助您更好地理解和评价这项研究的质量和意义 。
首先,我们来看看什么是行为模型强化学习(BMRL)的框架 , 以及为什么它是一种适合用于干预人类行为的方法 。BMRL是一种基于模型的强化学习的方法,它假设人工智能可以观察到人类的状态、行动和奖励,从而建立一个Agent的MDP模型 。Agent的MDP模型由一组状态、一组行动、一个转移函数、一个奖励函数和一个折扣因子组成 。Agent的目标是通过选择最优的行动来最大化他们的期望累积奖励 。然而Agent的MDP模型可能存在一些问题,导致Agent的行为与他们的目标不一致,例如:
人类的折扣因子可能过低 , 导致人类过于看重短期的奖励,而忽视长期的后果 。例如,一个想要戒烟的人可能会因为一时的瘾而放弃他的计划 。
人类的奖励函数可能存在一些摩擦,导致人类执行任务的成本过高,而收益过低 。例如,一个想要减肥的人可能会因为运动的痛苦而不愿意坚持他的计划 。
人类的转移函数可能存在一些不确定性,导致人类执行任务的结果难以预测 , 而风险过高 。例如,一个想要学习一门新语言的人可能会因为学习的难度而不敢尝试他的计划 。

链世界:一种简单而有效的人类行为Agent模型强化学习框架

文章插图
图1:BMRL概述,人类代理与环境交互,如标准RL中所示 。人工智能主体的行为会影响人类主体 。人工智能环境由人工智能主体+环境构成 。
在这些情况下 , 人工智能可以通过干预人类的MDP模型的参数,来改变人类的行为,使其更接近他们的目标 。例如,人工智能可以通过以下方式来干预人类的行为 。


推荐阅读