随着人工智能能够更好地完成曾经完全由人类完成的任务,如驾驶汽车,许多人将团队智能视为下一个前沿领域。在未来,人类和人工智能将成为高风险工作的真正合作伙伴,例如进行复杂的手术或防御导弹。但在团队智能能够起飞之前,研究人员必须克服一个侵蚀合作的问题:人类通常不喜欢或不信任他们的AI伙伴。googletag。命令。push(function(){googletag.display('div-gpt-ad-1453799284784-2');});现在,新的研究表明,多样性是使人工智能成为更好的团队成员的关键参数。
麻省理工学院林肯实验室的研究人员发现,在纸牌游戏Hanabi中,与数学上“多样化”的队友一起训练人工智能模型,可以提高其与以前从未使用过的其他人工智能的协作能力。此外,Facebook和Google的DeepMind同时发布了独立作品,也为训练注入了多样性,以提高人工智能协作游戏的效果。
总之,研究结果可能会为研究人员指明一条有希望的道路,使人工智能既能表现良好,又能被人类队友视为良好的合作者。
“事实上,我们都同意同一个想法鈥攖帽子如果你想合作,你需要在不同的环境中训练鈥攊“这很令人兴奋,我相信它确实为合作人工智能的未来工作奠定了基础,”Ross Allen说,他是林肯实验室人工智能技术组的研究员,也是一篇详细介绍这项工作的论文的合著者,该论文最近在自主智能体和多智能体系统国际会议上发表。
适应不同的行为
为了开发合作人工智能,许多研究人员正在使用Hanabi作为试验场。Hanabi要求玩家一起按顺序叠牌,但玩家只能看到队友的牌,并且只能给对方提供少量关于他们持有哪张牌的线索。
在之前的一次实验中,林肯实验室的研究人员用人类测试了世界上性能最好的Hanabi AI模型之一。他们惊讶地发现,人类非常不喜欢玩这个人工智能模型,称之为令人困惑和不可预测的队友。艾伦说:“我们的结论是,我们缺少了一些关于人类偏好的信息,我们还不擅长制作可能在现实世界中工作的模型。”。
该团队想知道合作AI是否需要进行不同的培训。所使用的人工智能类型称为强化学习,传统上通过发现哪些行动产生最高回报来学习如何在复杂任务中取得成功。它通常根据与自身相似的模型进行培训和评估。这一过程在Go和星际争霸等竞争性游戏中创造了无与伦比的AI玩家。
但要让人工智能成为一个成功的合作者,或许它不仅需要关心与其他人工智能代理合作时的回报最大化,还需要更内在的东西:理解和适应他人的优势和偏好。换句话说,它需要学习和适应多样性。
你如何训练这样一个多元化的人工智能?研究人员提出了“任何游戏”任何游戏都会通过增加另一个目标来增加训练AI Hanabi代理的过程,除了最大化游戏分数:AI必须正确识别其训练伙伴的游戏风格。
这种游戏风格在训练伙伴中编码为代理必须估计的潜在或隐藏变量。它通过观察伴侣行为的差异来做到这一点。这一目标还要求其合作伙伴学习不同的、可识别的行为,以便将这些差异传达给接收AI代理。
虽然这种诱导多样性的方法在人工智能领域并不新鲜,但该团队通过将这些不同的行为作为游戏的不同玩法,将这一概念扩展到协作游戏。
第一作者、卡内基梅隆大学博士候选人基恩·卢卡斯(KeaneLucas)表示:“AI代理必须观察其合作伙伴的行为,以识别他们收到的秘密输入,并必须适应这些不同的游戏方式,才能在游戏中表现良好。其想法是,这将产生一个善于使用不同游戏风格的AI代理。”,作为实验室的前实习生,他领导了这些实验。
与自己不同的人玩耍
该团队在任何游戏训练过程中对早期的Hanabi模型(他们在之前的实验中用人类进行了测试)进行了扩充。为了评估这种方法是否改善了协作,研究人员将该模型与“陌生人”组合在一起鈥攎超过100个其他Hanabi模型,它们以前从未遇到过,并且通过单独的算法进行训练鈥攊数百万场双人比赛。
任何一对搭档的表现都优于所有其他球队,因为这些球队也是由算法不同的搭档组成的。当与未经任何训练的原始版本合作时,它的得分也会更好。
研究人员认为,这种被称为算法间交叉游戏的评估是人工智能在现实世界中与人类合作的最佳预测指标。算法间的交叉作用与更常用的评估形成对比,这些评估根据模型本身的副本或根据同一算法训练的模型来测试模型。
“我们认为,这些其他指标可能会产生误导,并人为地提高某些算法的表面性能。相反,我们想知道,‘如果你突然加入了一个合作伙伴,而事先不知道他们将如何发挥作用,那么你能有多好的协作?’我们认为这种评估在与其他AI评估合作AI时最现实,因为你无法与人类测试”艾伦说。
事实上,这项工作并没有测试任何与人类的游戏。然而,DeepMind发布的研究与实验室的工作同步,使用类似的多样性训练方法开发了一个AI代理,以玩与人类过度烹饪的协作游戏。艾伦说:“人工智能代理和人类表现出了非常好的合作,这一结果让我们相信,我们的方法,我们发现更普遍的方法,也会很好地适用于人类。”。Facebook同样在培训中使用多样性来改善Hanabi AI代理之间的协作,但使用了一种更复杂的算法,需要修改Hanabi游戏规则才能处理。
算法间交叉游戏分数是否真的是人类偏好的良好指标仍然是一个假设。为了将人类的视角带回这个过程中,研究人员希望尝试将一个人对人工智能的感觉(如不信任或困惑)与用于训练人工智能的特定目标相关联。揭示这些联系有助于加速该领域的进展。
“开发人工智能以更好地与人类合作的挑战在于,我们不能让人类在训练过程中告诉人工智能他们喜欢什么和不喜欢什么。这需要数百万个小时和个性。但如果我们能找到某种人类偏好的可量化代表鈥攁nd也许培训的多样性就是这样一个代表鈥攖嗯,也许我们已经找到了一种克服这一挑战的方法,”艾伦说