返回顶部
今日    | 手机版 | 资讯 | 产品 | 企业 | 热点 | 商道 | 原料 |
返回首页
返回首页
home 您现在的位置: 首页 >设备与仪器>市场评论 > 详细信息
机器人在决策前使用新的AI工具评估所有可能性
2020年09月10日    阅读量:4416     新闻来源:中国机械网 okmao.com    |  投稿

就像人类一样,当机器人做出决定时,通常会有很多选择和成百上千的潜在结果。机器人已经能够模拟其中的少数结果,从而找出最可能导致成功的行动方案。但是,如果其他选择之一同样有可能成功并且更安全呢?


机器人在决策前使用新的AI工具评估所有可能性 中国机械网,okmao.com


海军研究办公室授予MIT训练有素的机械工程师 Brendan Englot史蒂文斯技术 2020年青年科学家奖508,693美元,以利用经典人工智能工具的新变体使机器人能够预测他们的行为以及发生的可能性中国机械网okmao.com。该框架将使机器人通过了解哪些选项是最安全,最有效且最不可能失败的方法,来找出实现目标的最佳方法。


恩格洛特说:“如果机器人完成任务的最快方法是走在悬崖的边缘,那会牺牲速度的安全性。”恩格洛特将率先使用这种工具(分布式强化学习)来训练机器人。“我们不希望机器人掉下悬崖,因此我们为他们提供了预测和管理完成所需任务所涉及的风险的工具。”


多年来,强化学习已被用于训练机器人在水,陆地和空中自主导航。但是该AI工具有局限性,因为它实际上是根据可能发生的许多其他可能结果而基于每个可用操作的单个预期结果来做出决策。Englot使用的是分布式强化学习,这是一种AI 算法,机器人可以使用它来评估所有可能的结果,预测每个动作成功的可能性并选择最成功的权宜之计,同时保持机器人的安全。


在将算法运用于实际机器人之前,Englot的首要任务是完善算法。Englot和他的团队创建了许多决策环境来测试他们的算法。他们经常转向该领域最受欢迎的游戏场之一:Atari游戏。


例如,当您玩吃豆人时,您就是决定吃豆人行为方式的算法。您的目标是获取迷宫中的所有点,如果可以的话,获取一些水果。但是周围有鬼魂可以杀死你。每秒钟,您被迫做出决定。你是直走,向左走还是向右走?哪条路径可以让您获得最多的点和点,同时又使您远离幽灵?


Englot的AI算法使用分布式强化学习,将代替人类玩家,模拟一切可能的动作以安全地浏览其景观。


那么,您如何奖励机器人呢?Englot和他的团队将为不同的结果分配分数,即,如果它掉下悬崖,机器人将获得-100的分数。如果采用较慢但安全的方法,则绕行的每一步可能会得到-1分。但是,如果成功达到目标,则可能会获得+50。


Englot表示:“我们的次要目标之一就是看如何设计奖励信号,以积极影响机器人的决策方式和训练方式。” “我们希望本项目中开发的技术最终可以用于更复杂的AI,例如训练水下机器人在潮汐,洋流和其他复杂环境因素中安全航行。”


标签:行业资讯今日头条产品资讯机械商道机械应用人工智能市场评论技术中心机器人设备与仪器服务与娱乐机器人系统及软件办公设备
免责声明: 本文仅代表作者本人观点,与本网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。客服邮箱:service@cnso360.com | 客服QQ:23341571

全站地图

深圳网络警察报警平台 深圳网络警
察报警平台

公共信息安全网络监察 公共信息安
全网络监察

经营性网站备案信息 经营性网站
备案信息

中国互联网举报中心 中国互联网
举报中心

中国文明网传播文明 中国文明网
传播文明

深圳市市场监督管理局企业主体身份公示 工商网监
电子标识