在人群中移动以达到某个最终目标时,人们通常可以安全地在太空中导航,而不必考虑太多。他们可以从他人的举止中学习,并注意应避免的障碍。另一方面,机器人在这种导航概念上挣扎中国机械网okmao.com。

麻省理工学院的研究人员现在已经设计出一种方法,可以帮助机器人更像人类一样导航环境。他们新颖的运动计划模型使机器人可以通过探索环境,观察其他主体以及利用在类似情况下以前学到的知识来确定如何实现目标。
在本周的IEEE / RSJ国际智能机器人和系统国际会议(IROS)上发表了描述该模型的论文。
流行的运动计划算法会创建一棵可能的决策树,直到决策者找到合适的导航路径为止。
例如,需要导航一个房间才能到达一扇门的机器人将创建一个可能的运动的逐步搜索树,然后在考虑各种约束的情况下执行通往门的最佳路径。
但是,缺点之一是这些算法很少学习:机器人无法利用有关它们或其他代理先前在类似环境中的行为的信息。
“就像在下棋时一样,这些决定会不断扩展,直到(机器人)找到导航的好方法。但是与下棋者不同,(机器人)在不了解他们的环境和其他代理的情况下探索未来的情况。”
共同作者麻省理工学院的计算机科学与人工智能实验室(CSAIL)和麻省理工学院麦戈文研究所的大脑,思想与机器中心(CBMM)的研究员Andrei Barbu。“他们千千百次穿越同一人群,就像第一次一样复杂。他们一直在探索,很少观察,并且从不使用过去发生的事情。”
研究人员开发了一种模型,该模型将规划算法与神经网络相结合,可以学习识别可能导致最佳结果的路径,并使用该知识来指导机器人在环境中的运动。
在他们的论文“基于采样的计划的深度顺序模型”中,研究人员展示了其模型在两种情况下的优势:在具有陷阱和狭窄通道的具有挑战性的房间中导航,并在避免与其他代理人冲突的同时导航区域。
一个有前途的现实应用程序正在帮助自动驾驶汽车在十字路口导航,在这种情况下,他们必须快速评估其他人在合并后的交通状况。研究人员目前正在通过Toyota-CSAIL联合研究中心进行此类应用。
“当人类与世界互动时,我们会看到我们之前曾与之互动过的物体,或者我们曾经去过的某个物体,所以我们知道我们将如何行动,” Yen-Ling Kuo说道。博士 在CSAIL上发表,论文的第一作者。“这项工作的想法是在搜索空间中增加一个机器学习模型,该模型可以从过去的经验中了解如何使计划更有效率。”
CSAIL的首席研究科学家兼InfoLab集团负责人Boris Katz也是该论文的合著者。
权衡勘探与开发
传统的运动计划者通过迅速扩展决策树来探索环境,这些决策树最终覆盖了整个空间。然后,机器人会看树,以找到达到目标的方法,例如一扇门。但是,研究人员的模型提供了“探索世界和利用过去的知识之间的折衷”。
学习过程从几个例子开始。使用该模型的机器人可以通过几种方法来训练,以在相似的环境中导航。神经网络通过解释机器人周围的环境(例如墙的形状,其他主体的行为以及目标的特征)来学习使这些示例成功的原因。简而言之,该模型“了解到当您陷入??环境中并看到门口时,走出门走出去可能是个好主意,” Barbu说。
该模型将早期方法的探索行为与所学信息相结合。称为RRT *的基础计划程序是由MIT教授Sertac Karaman和Emilio Frazzoli共同开发的。(这是广泛使用的运动计划算法的一种变体,称为快速探索随机树,即RRT。)
计划者在神经网络镜像每个步骤的同时创建搜索树,并对机器人下一步应该走的位置进行概率预测。当网络基于学习到的信息以高置信度进行预测时,它将引导机器人走上新的道路。如果网络不确定性高,则可以让机器人像传统的计划器一样探索环境。
例如,研究人员在称为“错误陷阱”的模拟中演示了该模型,其中二维机器人必须通过中央狭窄通道从内腔逸出并到达周围较大房间的某个位置。通道两侧的盲人盟友可能会使机器人卡住。
在此仿真中,对机器人进行了一些如何逃脱不同错误陷阱的示例培训。面对新的陷阱时,它会识别陷阱的特征,逃脱并继续在更大的房间中寻找目标。神经网络可以帮助机器人找到陷阱的出口,识别死角,并为机器人提供周围环境的感觉,从而可以快速找到目标。
本文的结果基于一段时间后找到路径的机会,达到给定目标的路径总长度以及路径的一致性。在这两种模拟中,研究人员的模型都比传统计划者更快地绘制了更短且一致的路径。
与多个代理一起工作
在另一个实验中,研究人员在具有多种移动代理的导航环境中对模型进行了训练和测试,这对于自动驾驶汽车,尤其是对交叉路口和回旋处的导航非常有用。在模拟中,几个特工正在绕过障碍。机器人特工必须成功地在其他特工周围导航,避免碰撞并到达目标位置,例如回旋处的出口。
“回旋处之类的情况很难,因为它们需要推理其他人将如何响应您的行为,您随后将如何响应他们的行为,下一步将做什么,等等,” Barbu说。“您最终发现您的第一个操作是错误的,因为稍后将导致可能的事故。如果您必须应对更多的汽车,此问题将成倍恶化。”
结果表明,研究人员的模型可以捕获有关其他特工(汽车)未来行为的足够信息,以尽早中断该过程,同时仍可以在导航中做出正确的决策。这使计划更加有效。而且,他们只需要用几辆汽车就几个回旋处的例子训练模型。巴布说:“机器人制定的计划考虑到了其他人将要做什么,就像任何人一样。”
穿越交叉路口或回旋处是自动驾驶汽车面临的最具挑战性的场景之一。研究人员说,这项工作有一天可能使汽车了解人类的行为方式以及如何适应不同环境中的驾驶员。这是Toyota-CSAIL联合研究中心工作的重点。
Barbu说:“并不是每个人的行为方式都一样,但是人们非常刻板。有的人害羞,有进取心。该模型很快意识到了这一点,因此可以有效地进行计划。”
最近,研究人员将这项工作应用于带有操纵器的机器人,这些机器人在不断变化的环境中接触物体时同样面临着艰巨的挑战。