【前沿动态】人与机器人双向价值对等

浏览:2037   发布时间: 2022年12月18日

【前沿动态】人与机器人双向价值对等

社会协调的先决条件是队友之间的双向交流,每个人同时扮演两种角色:善于接受的倾听者和善于表达的表达者。对于与人类一起工作的机器人来说,如果不能满足其中任何一个角色的期望,就会因为人与机器人之间的价值观不一致而破坏团队绩效。具体来说,机器人需要作为一个有效的倾听者,从指令和反馈中推断人类用户的意图,并作为一个富有表现力的表达者,向用户解释其决策过程。朱纯松团队在《science robotics》上发表论文——In situ bidirectional human-robot value alignment。文中研究了如何在价值对齐的背景下培养有效的人机双向通信——协作机器人和用户对可能的任务目标的重要性形成一致的理解。作者提出了一个可解释的人工智能(XAI)系统,在该系统中,一组机器人在通过解释向用户传达决策过程时,通过考虑现场的反馈来预测用户的价值。为了从人类的反馈中学习, XAI系统集成了一个合作交流模型,用于推断与多个目标相关的人类价值。为了便于人类理解,该系统模拟了人类的心理动态,并使用图形模型预测最佳解释。作者进行了心理实验来检查所提出的计算框架的核心组件。研究结果表明,基于双向交流的学习模型可以实现复杂协作任务中的实时人机相互理解。

在人工智能(AI)的初期,Wiene说:“如果我们使用一个我们无法有效干预其操作的机械机构来实现我们的目的……我们最好确定机器的目的就是我们真正想要的目的。”此后,多项研究表明,有效的人-机器人协作依赖于共享的团队心理模型,该模型包括价值、目标和任务的当前状态。为了实现共享的团队心理模型,人类将沟通作为一种有效的工具,以建立团队对任务预期的共同理解,团队成员采用预期的信息共享策略来完成协作任务。共享的过程在合作者之间是双向的,因为每个队友都需要同时扮演表达者和倾听者的角色。在人机协作中,通过双向价值对齐可以标志着成功的沟通,机器人可以准确地推断人类的价值,并有效地向人类解释机器人的行为。

现有的可解释人工智能(XAI)系统主要从两种通信方向中的一种来解决人-机器人通信问题,而很少同时从两种通信方向来解决问题。要实现人与机器人的双向心理协调,需要以人为中心、动态-机器与动态-人的交流。除了揭示它的决策过程,还将采用用户的价值观,实时改变其行为,使机器人和人类用户合作实现一组共同的目标。为了即时掌握用户的信息,传统的数据驱动机器学习方法被合作中的交流学习取代。机器人的解释将根据人类当前的目标进行上下文调整。这种面向合作的人机合作需要机器具有一定程度的心理理论(ToM):机器会主动推断用户的信念、意图和目标。

图1 人机价值对齐过程

为了构建具有上述理解人类用户的信念、愿望和目标的能力,同时又能被用户理解的XAI系统,我们设计了一个实例化为协作游戏的人机合作系统。在这个系统中,人类用户需要与一群机器人侦察兵一起完成一些任务,并优化群体收益。在这个游戏中,用户和机器人在一个受限的信道上交流。只有机器人能直接与物理世界互动。用户不能直接访问物理世界或直接控制机器人的行为。只有用户可以知道人类期望的最终状态的真值,它决定了任务应该如何完成(例如,最小化时间和最大化探索区域),机器人必须通过人机交互推断这个值函数。这样的设置构成了一个微型任务,真实地模拟了真实世界的人机合作。这种设置也遵循经典的多智能体系统协作框架,系统中的智能体(3个侦察兵)可以并行工作,但可能依赖于他们的伙伴(人类用户)的通信和反馈。为了成功地完成一场游戏,机器人需要通过明智地“听”和“说”来完成双向对齐。首先,机器人需要从人类的反馈中提取有用的信息来推断用户的价值观,并相应地调整他们的策略。其次,机器人需要根据自己当前的价值推断,有效地解释自己已经做了什么,计划做什么,让用户知道在合作中是否共享人类的价值。图1展示了游戏中的双向值对齐过程。总的来说,提出的XAI系统旨在解决以下两个问题。机器人如何在实时交互和反馈中准确估计用户的意图?机器人如何解释自己,以便用户理解他们的行为,并提供有用的反馈,以帮助他们的价值一致?

在游戏中(图2),人类和侦察兵之间存在结构性的相互依赖关系。一方面,玩家需要依靠侦察兵去探索危险区域并拆除炸弹。另一方面,侦察兵需要用户提供反馈(图2B以及图5A),以便更好地理解当前任务的目标(图2A中间列)。系统为机器人侦察兵定义了一组目标,让他们在找到到达目的地的路径时去追求,包括节省到达目的地所需的时间,调查地图上可疑的电路/炸弹,探索砖块,收集资源。游戏的表现是由机器人侦察兵完成这些目标和它们的相对重要性(权重)来衡量的,它们被定义为人类用户的价值函数。虽然所有的目标都有其内在的好处,但目标之间必须根据价值功能进行权衡。例如,如果在价值函数中时间比资源更重要,侦察兵就应该为了时间而忽略一些在到达目的地途中的资源。为了强调价值函数的权衡本质,我们用一个百分比来表示每个因素的重要性,四个百分比之和为1。在互动开始之前,一个价值函数只作为游戏的任务分配给人类用户。(图2A中间列)

图2 探索游戏的游戏界面

在不知道价值函数的情况下,为了完成一项任务,机器人侦察兵(作为一个团队)必须迅速推断指挥官的价值。在每个步骤中,我们让机器人团队向用户提出三个探索建议,每个侦察兵提一个,用户可以接受或拒绝一个建议(图2Bi和ii)。为了帮助指挥官作出决策,机器人团队还解释了每一个提案的原因(图2Bii和C)。根据用户的反馈,机器人团队根据交互历史和当前地图状态,调整对人类价值的估计,并采取相应的行动。具体来说,如果一个计划被接受,提议者将尽可能地遵循该计划(一个计划可能会被部分意外块(禁止通行)中断);否则,机器人将根据更新后的值估计执行新的计划。我们只允许机器人团队每轮提交一次提案,这样机器人团队就必须依靠自己的自主权来完成任务,而不是提交到接受为止(避免被用户直接远程操控)。图3总结了人机交互流程,这一过程将会重复。

图3 侦查探索游戏的研究设计

为了评估XAI系统的性能,作者招募了167个人类被试参与实验来检验双向人-机器人价值对齐的成功。系统采用了三种解释(仅有建议(图2Bi)、建议+简单解释(图2B ii)、建议+充分解释(图2C)),因此将参与者随机分配到三组之一,通过三个相关测量来评估心理一致性。图4展示了所有三个组的双向人-机器人价值对齐结果。图4A显示了机器人的估计值与人类用户已知的真实值(图2A中间列)之间的对齐关系(与人类用户是否接受建议有关)。与游戏开始时相比,所有组在游戏结束时表现出更高的价值取向。简短解释组和充分解释组的侦察兵的估计值与真实值之间的相关性更高,显示出比仅建议组更强的价值对齐。图4B描述了人类用户对侦察兵在游戏进程中的价值的估计情况。它代表了人类评估侦察兵价值的准确性(与人类用户对机器人当前行为基于的价值的评估有关,见图5D)。在游戏的后半段,与其他两组相比,充分解释组的人类对侦察机价值评估方面表现出更强的一致性。

图4三组机器人侦察兵和人类的价值估计结果

图5 参与者在游戏中收到的游戏示例

研究结果表明,所提出的XAI系统能够实现协作任务的实时双向值对齐;机器人可以推断出人类用户的价值,并使其价值估计为用户所理解。这些结果提供了一致的证据,支持多种解释的必要性,既提高了机器人的性能质量,也提高了它们的社交智能。因为人工智能协作的目标是减少人类的认知负担和协助任务完成,因此,主动地实时推断人类的价值,并培养人类对系统的理解,为通用的人机合作铺平了道路。