返回顶部
返回首页
返回首页
今日    | 手机版 | 全站 | 产品 | 企业 | 新闻 | 原料 | 技术 | 网站 |
增强二维图像三维理解的计算机视觉技术,中国机械网,okmao.com
home 您现在的位置: 首页 >行业资讯 > 详细信息
增强二维图像三维理解的计算机视觉技术
2022年06月21日    阅读量:1096    新闻来源:中国机械网 okmao.com  |  投稿

在看照片和借鉴他们过去的经验时,人类通常可以感知到照片本身非常平坦的深度。然而,让计算机做同样的事情已经证明是相当具有挑战性的。

这个问题之所以困难,有几个原因,其中一个原因是,当三维场景被简化为二维(2D)表示时,信息不可避免地丢失。有一些成熟的策略可以从多个2D图像中恢复3D信息,但它们都有一些局限性。麻省理工学院(MIT)和其他机构的研究人员开发了一种称为“虚拟通信”的新方法,可以克服其中的一些缺点,并在传统方法出现问题的情况下取得成功。

标准的方法,称为“运动结构”,是以人类视觉的一个关键方面为模型的。因为我们的眼睛彼此分开,所以它们对一个物体的看法略有不同。可以形成三角形,三角形的边由连接两只眼睛的线段组成,再加上将每只眼睛连接到所讨论对象上的公共点的线段。知道三角形中的角度和眼睛之间的距离,就可以使用初等几何确定到该点的距离鈥攁当然,尽管人类视觉系统可以对距离做出粗略的判断,而无需进行繁重的三角计算。同样的基本理念鈥攐f三角测量或视差视图鈥攈几个世纪以来,天文学家一直利用它来计算到遥远恒星的距离。

三角剖分是运动结构的关键要素。假设你有一个物体的两张照片鈥攁 例如,兔子的塑像鈥攐ne取自图的左侧,另一个取自右侧。第一步是在兔子的表面上找到两幅图像共享的点或像素。研究人员可以从那里确定两个摄像头的“姿势”鈥攖他确定了拍摄照片的位置以及每个摄像头所面对的方向。知道了摄像机之间的距离和它们的方向,就可以通过三角测量计算出到兔子身上选定点的距离。如果确定了足够多的共同点,就有可能获得物体(或“兔子”)整体形状的详细感觉。

麻省理工学院电气工程与计算机科学系(EECS)博士生马蔚秋评论道,这项技术已经取得了长足的进步,“现在人们正在以越来越高的精度匹配像素。只要我们能在不同的图像上观察到相同的点,我们就可以使用现有的算法来确定相机之间的相对位置。”但这种方法只有在两幅图像有很大重叠的情况下才有效。如果输入图像具有非常不同的视点鈥攁因此,nd包含很少(如果有)共同点鈥攈e补充道:“系统可能会出现故障。”

2020年夏天,马云提出了一种新的做事方式,可以极大地扩展运动对结构的影响。当时麻省理工学院因流感大流行而关闭,马云在台湾的家中,躺在沙发上休息。当他看着自己的手掌,尤其是指尖时,他突然意识到自己可以清晰地描绘出自己的指甲,尽管他看不到指甲。

这就是虚拟通信概念的灵感所在,马云随后与他的顾问安东尼奥·托拉尔巴(Antonio Torralba)一起追求虚拟通信。托拉尔巴是计算机科学和人工智能实验室的EECS教授和研究员,还有多伦多大学的安琪·乔伊斯·杨(Anqi Joyce Yang)和拉奎尔·乌塔松(Raquel Urtasun)以及伊利诺伊大学的王申龙(Shenlong Wang)。“我们想把人类的知识和推理融入我们现有的3D算法中,”马说,同样的推理使他能够看着自己的指尖,在另一边变出指甲鈥攖他站在他看不见的一边。

当两幅图像有共同点时,“运动结构”(Structure from motion)就会起作用,因为这意味着可以始终绘制一个三角形,将相机连接到共同点,从而可以从中收集深度信息。虚拟通信提供了一种更进一步的方式。再次假设,一张照片是从兔子的左侧拍摄的,另一张照片是从右侧拍摄的。第一张照片可能会显示兔子左腿上的一个斑点。但由于光线是直线传播的,人们可以利用兔子的解剖学知识来知道从相机到腿的光线会在兔子的另一侧出现在哪里。该点可能在另一幅图像中可见(从右侧拍摄),如果是这样,则可以通过三角测量来计算三维中的距离。

换句话说,虚拟对应允许从兔子左侧的第一张图像中提取一个点,并将其与兔子看不见的右侧的一个点连接起来。“这里的优点是,你不需要重叠的图像来继续,”马指出。“通过观察对象并从另一端出来,这种技术提供了最初无法使用的共同点。”这样,就可以绕过传统方法的限制。

有人可能会问,这项工作需要多少先验知识,因为如果你必须从一开始就知道图像中所有东西的形状,那么就不需要计算。马和他的同事采用的技巧是在图像中使用某些熟悉的对象鈥攕如人形鈥攖o作为一种“锚”,他们设计了一些方法,利用我们对人体形状的了解来帮助确定相机的姿势,在某些情况下,还可以推断图像中的深度。此外,马解释道,“构建在我们算法中的先验知识和常识首先被神经网络捕获和编码。”

马云表示,该团队的最终目标要远大得多。“我们想制造能像人类一样理解三维世界的计算机。”他承认,这一目标仍远未实现。“但要超越我们现在的处境,建立一个像人类一样的系统,我们需要一个更具挑战性的环境。换句话说,我们需要开发出不仅能解读静态图像,还能理解短片和最终的全长电影的计算机。”

电影《善意狩猎》中的一个场景展示了他的想法。观众从后面看到马特·达蒙和罗宾·威廉姆斯坐在长凳上,长凳俯瞰波士顿公共花园的一个池塘。下一张照片是从对面拍摄的,提供了Damon和Williams在完全不同背景下的正面(尽管穿着衣服)视图。每个看这部电影的人都会立刻知道他们在看同一个人,尽管这两个镜头没有任何共同之处。计算机还不能实现这一概念上的飞跃,但马和他的同事们正在努力使这些机器更加熟练鈥攁至少在视觉方面鈥攎就像我们一样。

该团队的工作将于下周在计算机视觉和模式识别会议上公布。

这篇文章由麻省理工学院新闻网(web.MIT.edu/newoffice/)转载,该网站是一个受欢迎的网站,涵盖了有关麻省理工学院研究、创新和教学的新闻。

标签:行业资讯产品资讯机械商道配件与装备工业设备
免责声明: 本文仅代表作者本人观点,与中网机械无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。客服邮箱:service@cnso360.com | 客服QQ:23341571
中网机械手机版MOBILE
扫描二维码,获取手机版最新资讯 中网机械 您还可以直接微信扫描打开
全站地图

深圳网络警察报警平台 深圳网络警
察报警平台

公共信息安全网络监察 公共信息安
全网络监察

经营性网站备案信息 经营性网站
备案信息

中国互联网举报中心 中国互联网
举报中心

中国文明网传播文明 中国文明网
传播文明

深圳市市场监督管理局企业主体身份公示 工商网监
电子标识