近年来,开发人员创造了一系列复杂的机器人,这些机器人可以在特定环境中以越来越高效的方式操作。其中许多系统的身体结构都受到自然、动物和人类的启发。
尽管许多现有机器人的身体与人类或其他动物物种的身体相似,但对它们进行编程,使它们也能像受启发的动物一样移动,并不总是一件容易的事情。这样做通常需要开发先进的运动控制器,这可能需要大量的资源和开发工作。
DeepMind的研究人员最近发明了一种新技术,可以用来有效地训练机器人复制人类或动物的动作。这一新工具是在arXiv上预先发布的一篇论文中介绍的,它的灵感来源于以前的工作,这些工作利用了使用运动捕捉技术收集的表示真实世界人类和动物运动的数据。
DeepMind的团队在论文中写道:“我们研究了如何利用人类和动物运动的先验知识来学习真实腿机器人的可重用运动技能。”。“我们的方法建立在之前模拟人类或狗的运动捕捉(MoCap)数据的基础上,以学习运动技能模块。一旦学习,此技能模块可以重新用于复杂的下游任务。”
过去开发的机器人运动控制器大部分采用模块化设计,将系统分为不同的部分(即模块),这些部分相互作用。虽然其中一些控制器已经取得了有希望的结果,但开发它们通常需要大量的工程努力。此外,模块化设计通常是特定于任务的,因此它们不能很好地概括不同的任务、情况和环境。
作为这些控制器的替代方案,一些研究人员提出了一种称为“轨迹优化”的方法,该方法将运动规划器与跟踪控制器相结合。这些方法比模块化控制器需要更少的工程设计,但它们通常需要执行大量的计算,因此速度太慢,无法实时应用。
在他们的论文中,史蒂文·博兹(StevenBohez)和他在DeepMind的同事介绍了一种替代方法,用于训练类人机器人和腿部机器人以类似于人类和动物运动方式的方式移动。他们的技术从运动捕捉技术收集的数据中总结出人类和动物的运动技能,然后利用这些数据训练真实世界的机器人。
在开发方法时,团队完成了四个主要阶段。首先,他们将运动捕捉数据重新定向到真实世界的机器人。随后,他们训练一个策略,在模拟环境中模拟运动捕捉数据中所需的运动轨迹。
研究人员在论文中写道:“这种策略有一个层次结构,其中跟踪策略将所需的参考轨迹编码为一个潜在动作,随后指示一个本体感觉条件化的低级控制器。”。
在训练该策略以模拟参考轨迹后,研究人员可以通过训练新的任务策略来输出潜在动作,从而重用具有固定参数的低级控制器。这使得他们的控制器可以在机器人中复制复杂的人类或动物动作,例如运球。最后,Bohez和他的同事将他们从仿真开发的控制器转移到了真实的硬件上。
研究人员在论文中写道:“重要的是,由于MoCap数据的先验性,我们的方法不需要大量的奖励工程来在重用时产生明智和自然的行为。”。“这使得创建适合在真实机器人上部署的规则化、面向任务的控制器变得很容易。”
到目前为止,DeepMind的团队在模拟和真实环境中进行了一系列实验,评估了他们的方法。在这些测试中,他们成功地运用他们的技术训练控球员复制两种主要行为,即步行和带球。随后,他们评估了使用他们的方法在两个真实机器人上实现的运动质量:ANYmal四足机器人和OP3类人机器人。
Bohez和他的同事们收集的结果非常有希望,这表明他们的方法可以帮助开发更逼真地模拟人类和动物的机器人。在下一步的研究中,他们希望就新的动物和人类行为培训他们的政策,然后尝试在机器人中复制它们。
研究人员在论文中写道:“我们希望用更广泛的行为扩展我们的数据集,并进一步探索技能模块能够实现的下游任务范围。”。
漏 2022科学X网络