在电脑游戏中,当沿着轨道行驶时,为了优化速度,汽车将踏板推到金属上……并继续转弯一个小圈。指示中什么都没有告诉汽车直行,所以它是即兴的。
这个例子(在计算机游戏中很有趣,但生活中却不那么有趣)就是促使斯坦福大学研究人员建立更好的方法来设定自治系统目标的例子中国机械网okmao.com。
计算机科学和电气工程学助理教授Dorsa Sadigh和她的实验室将两种为机器人设定目标的不同方法组合到一个过程中,在模拟和实际实验中,它们的表现都比单独一个部分要好。研究人员于6月24日在机器人技术:科学与系统会议上介绍了这项工作。
“我完全希望世界上会有更多的自治系统,它们将需要一些概念,什么是好是坏”,计算机科学专业的研究生Andy Palan说。纸。“至关重要的是,如果我们将来希望部署这些自治系统,那么我们必须做到这一点。”
团队用于向机器人提供指令的新系统(称为奖励功能)结合了演示(其中人类向机器人展示如何做)和用户偏好调查,其中用户回答了有关他们希望机器人如何表现的问题。
萨迪格说:“示威是有益的,但可能会带来干扰。另一方面,喜好最多只能提供一点信息,但更准确。” “我们的目标是充分利用两全其美,并更智能地合并来自这两个来源的数据,以更好地了解人类的首选奖励功能。”
示范与调查
在先前的工作中,Sadigh仅专注于偏好调查。这些要求人们比较场景,例如自动驾驶汽车的两条轨迹。这种方法是有效的,但可能要花多达三分钟的时间才能产生下一个问题,对于为诸如汽车之类的复杂系统创建指令仍然很慢。
为了加快速度,小组后来开发了一种同时产生多个问题的方法,可以由一个人快速连续回答,也可以分布在几个人中。与一个接一个地提出问题相比,此更新将过程加快了15到50倍。
新的组合系统从一个向机器人演示行为的人开始。这样可以为自主机器人提供大量信息,但是机器人通常很难确定演示的哪些部分很重要。人们也不总是希望机器人的行为像受过训练的人一样。
电气工程专业的研究生Erdem Biyik说:“我们不能总是进行演示,即使有可能,我们也常常不能依靠人们提供的信息。” “例如,以前的研究表明,人们希望自动驾驶汽车的主动性不如自己。”
这就是进行调查的地方,为机器人提供了一种询问方式,例如,用户是否更喜欢将其手臂向低处移动到地面还是向上移动到天花板。对于本研究,该小组使用了较慢的单个问题方法,但他们计划在以后的工作中整合多问题调查。
在测试中,研究小组发现,将演示和调查相结合比仅指定首选项要快,并且与仅进行演示相比,约有80%的人更喜欢使用组合系统训练机器人的行为。
萨迪格说:“这是更好地了解人们对机器人的期望或期望的一步。” “我们的工作正在使人们更轻松,更高效地进行交互和教授机器人,而我对将这项工作进一步发展感到兴奋,特别是在研究机器人与人类之间如何相互学习方面。”
更好,更快,更智能
使用组合方法的人报告说,很难理解系统对某些问题的理解,有时会要求他们在两个看起来相同或与任务无关的场景之间进行选择,这是基于偏好的学习中的常见问题。研究人员希望通过更简单的调查来解决这一缺点,而且调查也可以更快地进行。
“展望未来,实现奖励功能的正确方法对我来说并不是100%显而易见,但实际上,您将拥有某种组合,可以用人工输入解决复杂的情况,” Palan说。“能够为自治系统设计奖励功能是一个大而重要的问题,应引起学术界的广泛关注。”
团队还对他们的系统的变化感兴趣,这将使人们可以同时为不同的场景创建奖励功能。例如,一个人可能希望自己的汽车在慢速行驶时更保守地驾驶,而在交通流量较小时更积极地驾驶。
演示失败时
有时,仅靠示范就无法传达任务的重点。例如,这项研究中的一个演示让人们教机器人手臂移动直到它指向地面上的特定位置,并在避开障碍物且不超过一定高度的同时进行操作。
在人类将机器人按节奏运行30分钟后,机器人尝试自动执行任务。它只是指向上方。它是如此地专注于学习不要碰到障碍,它完全错过了任务的实际目标(指向现场)以及偏低的偏好。
手工编码和奖励黑客
教机器人的另一种方法是编写充当指令的代码。挑战在于准确地说明您希望机器人执行的操作,尤其是在任务复杂的情况下。一个常见的问题称为“奖励骇客”,在这种情况下,机器人会找出一种实现指定目标的简便方法,例如将汽车绕圈旋转以达到快速行驶的目的。
Biyik在编程机械臂以抓住圆柱体并将其保持在空中时经历了奖励黑客攻击。
Biyik表示:“我告诉我手必须合上,物体的高度必须大于X,并且手应处于相同的高度。” “机器人将圆柱物体滚动到桌子的边缘,向上击中它,然后在空中挥拳。”