多伦多大学(University of Toronto)教授蒂姆·巴福特(TimBarfoot)领导的一个研究小组正在使用一种新策略,通过预测机器人路径上动态障碍物的未来位置,机器人可以避免与人发生碰撞。
该项目将于5月底在费城举行的机器人与自动化国际会议上公布。
arXiv预印本服务提供了尚未经过同行评审的模拟结果。
“我们工作的原则是让机器人预测人们在不久的将来会做什么,”应用科学与工程学院T大学航空航天研究所Barfoot实验室的博士后研究员Hugues Thomas说。“这使得机器人能够预测它遇到的人的移动,而不是在遇到这些障碍时做出反应。”
为了决定移动的位置,机器人利用时空占用栅格地图(SOGM)。这些是机器人处理器中维护的3D网格图,每个2D网格单元包含特定时间该空间中活动的预测信息。机器人通过现有的轨迹规划算法处理这些地图来选择未来的动作。
该团队使用的另一个关键工具是光探测和测距(lidar),这是一种类似于雷达的遥感技术,只是它使用光而不是声音。激光雷达的每次ping都会创建一个存储在机器人内存中的点。该团队之前的工作重点是根据这些点的动态特性标记这些点。这有助于机器人识别周围不同类型的物体。
该团队的SOGM网络目前能够识别四种激光雷达点类别:地面;永久性固定装置,如墙壁;可移动但静止的东西,如椅子和桌子;和动态障碍,如人。不需要人为标记数据。
Barfoot说:“通过这项工作,我们希望机器人能够以更具社会意识的方式在拥挤的室内空间中导航。”。“通过预测人和其他物体将去哪里,我们可以规划出预测动态元素将做什么的路径。”
在本文中,该团队报告了在模拟中执行的算法的成功结果。下一个挑战是在现实世界中表现出类似的性能,在现实世界中,人类的行为可能很难预测。作为这项工作的一部分,该团队在英国理工大学Myhal工程创新与创业中心的一楼测试了他们的设计,在那里机器人能够从繁忙的学生身边经过。
托马斯说:“当我们在模拟中进行实验时,我们有被编码为特定行为的代理,它们会按照最佳轨迹到达特定点。”。“但这不是人们在现实生活中所做的。”
当人们穿过空间时,他们可能会匆忙或突然停下来与其他人交谈,或转向完全不同的方向。为了处理这种行为,网络采用了一种称为自监督学习的机器学习技术。
自我监督学习与其他机器学习技术(如强化学习)形成对比,在强化学习中,算法通过试错的方式最大化奖励的概念来学习执行任务。虽然这种方法适用于某些任务鈥攆例如,一台学习下棋或围棋等游戏的计算机鈥攊t不适合这种类型的导航。
“通过强化学习,您创建了一个黑匣子,很难理解输入之间的联系鈥攚机器人看到的帽子鈥攁“然后输出,否则机器人会输出,”托马斯说它还需要机器人多次失败才能学会正确的呼叫,我们不希望我们的机器人通过撞人来学习。“”
相比之下,自我监督学习简单易懂,这意味着更容易看到机器人是如何做出决策的。这种方法也是以点为中心的,而不是以对象为中心的,这意味着网络对原始传感器数据有更紧密的解释,允许进行多模式预测。
托马斯说:“许多传统方法将人检测为单个对象并为其创建轨迹。但由于我们的模型是以点为中心的,我们的算法不会将人量化为单个对象,而是识别出人应该在的区域。如果你有一个更大的人群,该区域就会变大。”。
“这项研究提供了一个很有希望的方向,可能在自动驾驶和机器人交付等环境不完全可预测的领域产生积极影响。”
在未来,团队希望看看他们是否可以扩大网络规模,从场景中的动态元素中学习更多微妙的线索。
“这将需要更多的训练数据,”Barfoot说。“但这应该是可能的,因为我们已经设置好以更自动化的方式生成数据:机器人可以在导航时自己收集更多数据,在不运行时训练更好的预测模型,然后在下次导航空间时使用这些模型。”