当通信线路打开时,单个代理(如机器人或无人机)可以一起协作并完成任务。但是,如果他们没有配备正确的硬件,或者信号被阻断,使得通信无法进行,那该怎么办?伊利诺伊大学厄本那-香槟分校的研究人员从这一更困难的挑战开始。他们开发了一种方法,使用多智能体强化学习(一种人工智能)来训练多个智能体协同工作。
伊利诺伊州的航空工程师Huy Tran说:“当特工们可以互相交谈时,这会更容易。”。“但我们希望以一种分散的方式来实现这一点,这意味着他们不相互交谈。我们还关注了代理的不同角色或工作不明显的情况。”
Tran说,这种情况要复杂得多,是一个更困难的问题,因为不清楚一个代理相对于另一个代理应该做什么。
“有趣的问题是,随着时间的推移,我们如何学会一起完成一项任务,”陈说。
Tran和他的合作者使用机器学习来解决这个问题,他们创建了一个效用函数,告诉代理什么时候做了对团队有用或有益的事情。
“有了团队目标,很难知道是谁促成了胜利,”他说。“我们开发了一种机器学习技术,允许我们识别单个代理何时为全球团队目标做出贡献。如果你从体育角度来看,一名足球运动员可能得分,但我们还想知道其他队友导致进球的行为,如助攻。很难理解这些延迟效应。”
研究人员开发的算法还可以识别代理或机器人何时在做与目标无关的事情。“与其说机器人选择做错事,不如说它选择了对最终目标没有帮助的事情。”
他们用模拟游戏测试了他们的算法,比如《捕捉旗帜》和一款流行的电脑游戏《星际争霸》。
“星际争霸可能有点不可预测鈥攚我们很高兴看到我们的方法在这种环境下也能很好地工作。"
Tran说,这种类型的算法适用于许多实际情况,例如军事监视、机器人在仓库中协同工作、交通信号控制、自动车辆协调交付或控制电网。
陈说,当他还是一名机械工程专业的本科生时,金承铉(Seung Hyun Kim)完成了这个想法背后的大部分理论,航空航天专业的学生尼尔·范·斯特拉伦(Neale Van Stralen)帮助实现了这个想法。陈和Girish Chowdhary建议了两个学生。这项工作最近在自主智能体和多智能体系统同行评审会议上提交给了人工智能社区。
这项研究“解开多智能体强化学习中协调的后续特征”,发表在2022年5月举行的第21届国际自主智能体和多智能体系统会议记录上。