返回顶部
今日    | 手机版 | 资讯 | 产品 | 企业 | 热点 | 商道 | 原料 |
返回首页
返回首页
home 您现在的位置: 首页 >机械应用 > 详细信息
训练机器人通过“半透明”场景识别物体位置
2020年09月25日    阅读量:2377     新闻来源:中国机械网 okmao.com    |  投稿

随着越来越多的机器人进入多种环境,研究人员正在努力使与人类的互动尽可能顺畅自然。培训机器人以立即响应语音指令,例如“拿起玻璃杯,将其移至右侧”等,这在许多情况下是理想的,因为它最终将实现更直接,更直观的人机交互。但是,这并不总是那么容易,因为它需要机器人理解用户的指令,而且还需要知道如何根据特定的空间关系移动对象中国机械网okmao.com


训练机器人通过“半透明”场景识别物体位置 中国机械网,okmao.com


德国弗赖堡大学的研究人员最近设计了一种新的方法,用于教机器人如何按照人类用户的指示来移动对象,该方法通过对“半透明”场景表示进行分类。他们的论文已在arXiv上预先发表,将于6月在巴黎举行的IEEE国际机器人与自动化会议(ICRA)上发表。


“在我们的工作中,我们专注于关系对象放置说明,例如'将杯子放在盒子的右边'或'将黄色玩具放在盒子的顶部,” Oier Mees,一位研究人员这项研究告诉TechXplore。“为此,机器人需要推理出杯子相对于盒子或任何其他参考对象的放置位置,以便再现用户描述的空间关系。”


训练机器人以了解空间关系并相应地移动对象可能非常困难,因为用户的指令通常不会在机器人观察到的较大场景中划定特定位置。换句话说,如果人类用户说“将杯子放在手表的左侧”,则机器人应将杯子放置在离手表多远的地方,以及不同方向(例如,向右,向左,向右)之间的确切边界在哪里?的前面,后面等)?


梅斯说:“由于这种固有的含糊性,也没有可用于学习模拟空间关系的真实性或'正确'的数据。” “我们从辅助学习的角度解决了空间关系的地面真像素式注释不可用的问题。”


Mees和他的同事设计的方法背后的主要思想是,当给定两个对象以及代表它们所在背景的图像时,确定它们之间的空间关系就容易了。这使机器人可以检测一个物体是否在另一个物体的左侧,上方,前方等等。


该图概述了研究人员设计的方法是如何工作的。辅助的CNN,称为RelNet,经过训练可以在给定输入图像和两个注意蒙版的情况下预测空间关系,这两个注意蒙版涉及形成关系的两个对象。(a)训练后,可以通过(b)在不同的空间位置实施商品的高级功能来“诱骗”网络对幻觉场景进行分类。图片来源:Mees等。

虽然识别两个对象之间的空间关系并没有指定应在何处复制这些关系,但在场景中插入其他对象可能会允许机器人推断多个空间关系的分布。将这些不存在的(即幻觉的)对象添加到机器人所看到的内容中,应允许它评估场景在执行给定动作时的外观(即,将一个对象放置在桌面或前面的特定位置)的)。


训练机器人通过“半透明”场景识别物体位置 中国机械网,okmao.com

 

梅斯说:“通常,逼真地将物体“粘贴”到图像中需要访问3-D模型和轮廓,或者精心设计生成对抗网络(GAN)的优化程序。“此外,天真地“粘贴”图像中的对象蒙版会产生细微的像素伪像,从而导致明显不同的特征,并导致错误地将注意力集中在这些差异上。我们采用了不同的方法,并将对象的高级特征植入场景的特征图中由卷积神经网络生成以产生幻觉的场景表示,然后将其分类为获取学习信号的辅助任务。”


Before training a convolutional neural network (CNN) to learn spatial relations based on hallucinated objects, the researchers had to ensure that it was capable of classifying relations between individual pairs of object based on a single image. Subsequently, they "tricked" their network, dubbed RelNet, into classifying "hallucinated" scenes by implanting high-level features of items at different spatial locations.


迈斯说:“我们的方法允许机器人遵循人类用户给出的自然语言放置指令,而将数据收集或启发式方法降到最低。” “每个人都希望在家中拥有一个服务机器人,该机器人可以通过理解自然语言指令来执行任务。这是使机器人能够更好地理解常用空间介词含义的第一步。”


训练机器人移动物体的大多数现有方法都是使用与物体的3-D形状有关的信息来建模成对的空间关系。这些技术的主要局限性在于,它们通常需要其他技术组件,例如可以跟踪物体的跟踪系统。另一方面,Mees和他的同事提出的方法不需要任何其他工具,因为它不是基于3-D视觉技术的。


研究人员在一系列涉及真实人类用户和机器人的实验中评估了他们的方法。这些测试的结果非常有前途,因为它们的方法使机器人可以根据人类用户的口头指示所概述的空间关系,有效地识别出将对象放在桌子上的最佳策略。



“我们新颖的幻觉场景表示方法在机器人技术和计算机视觉社区中也可以有多种应用,因为通常机器人通常需要能够估计未来状态的好坏程度,以便推理出需要采取的行动,米斯说。通过使用幻觉的场景表示作为数据增强的一种形式,它还可以用于改善许多神经网络的性能,例如对象检测网络。”


Mees和他的同事们能够可靠地对一组自然语言空间介词(例如,右,左,上等)进行建模,而无需使用3-D视觉工具。将来,他们的研究中提出的方法可用于增强现有机器人的功能,从而使它们能够在遵循人类用户的语音指导的同时,更有效地完成简单的对象移动任务。


同时,他们的论文可以为类似技术的发展提供信息,以增强其他对象操作任务期间人与机器人之间的交互。如果结合辅助学习方法,Mees和他的同事开发的方法还可以减少与编译机器人技术研究的数据集有关的成本和工作量,因为它可以预测像素概率,而无需使用大批注解的数据集。


迈斯总结说:“我们认为这是朝着使人与机器人之间达成共识的方向迈出的有希望的第一步。” “将来,我们希望扩展我们的方法,以纳入对引用表达的理解,以便开发遵循自然语言指令的取放系统。”


标签:行业资讯今日头条产品资讯机械应用市场评论技术中心机器人服务与娱乐机器人配件与装备通用机器人系统及软件
免责声明: 本文仅代表作者本人观点,与本网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。客服邮箱:service@cnso360.com | 客服QQ:23341571

全站地图

深圳网络警察报警平台 深圳网络警
察报警平台

公共信息安全网络监察 公共信息安
全网络监察

经营性网站备案信息 经营性网站
备案信息

中国互联网举报中心 中国互联网
举报中心

中国文明网传播文明 中国文明网
传播文明

深圳市市场监督管理局企业主体身份公示 工商网监
电子标识