用于从场景获得深度信息的设备和方法技术

技术编号:22570176 阅读:18 留言:0更新日期:2019-11-17 10:19
公开了一种用于从场景获得深度信息的方法,其中方法包括以下步骤:a)在拍摄的时间期间用至少一个相机获取场景的多个图像,其中多个图像提供场景的至少两个不同的视图;b)对于步骤a)的每个图像,同时获取关于参考六轴参考系统的图像的位置的数据;c)从步骤b)的图像中选择至少两个图像;d)校正在步骤c)所选择的图像,从而生成校正的图像的集合;以及e)从校正的图像生成深度图。此外用于执行所公开的方法的装置。

Devices and methods for obtaining depth information from scenes

A method for obtaining depth information from a scene is disclosed, wherein the method comprises the following steps: a) acquiring a plurality of images of the scene with at least one camera during the shooting time, wherein the plurality of images provide at least two different views of the scene; b) acquiring data about the position of the image referring to the six axis reference system simultaneously for each image in step a); c) from step Step b) select at least two images from the images; d) calibrate the selected images in step c) to generate a set of corrected images; and E) generate a depth map from the corrected images. Further, means for executing the disclosed method.

【技术实现步骤摘要】
【国外来华专利技术】用于从场景获得深度信息的设备和方法
本专利技术涉及数字图像处理领域,并且更具体地,涉及用于从图像生成深度图和估计距离的方法和系统。
技术介绍
从图像中恢复3D信息是计算机视觉中广泛研究的问题,在机器人、场景理解和3D重建中具有重要应用。深度图估计主要通过处理场景的多于一个的视图(通常两个视图)来获得,或者是通过用一个设备拍摄的场景的若干图像,或者是通过使用若干设备(通常是立体相机配置中的两个相机)拍摄的若干图像。这已知为多视图(或在两个相机或两个视图的情况下的立体视觉)并且是基于三角测量技术的。提取物点的深度信息的一般方法是测量在场景的若干所捕获的图像上这个点的图像的位移。位移或视差(disparity)与物体的实际深度直接相关。为了获得点的视差,有必要在其余的视图中(或至少在两个视图中)识别同一点的位置。这个问题通常使用对应算法来解决,该对应算法是图像处理研究领域中众所周知的处理。然而,与本文件提出的专利技术相比,立体视觉技术存在两个相关的弱点:第一具有(至少)两个相机的需要是许多情况中重要的限制,以及第二是立体方法在计算上昂贵得多的事实,因为它们通常需要计算密集的对应算法(匹配来自两个或更多个图像的图案)。具有多个设备或拍摄场景的多张照片的替代选择将是使用全光相机。全光相机是成像设备,该成像设备不仅能够捕获被称为光场的结构中的空间信息,还能够捕获被称为光场的结构中的角度信息。全光相机通常包括主透镜(或等效于所述主透镜的透镜的集合)、微透镜阵列(MLA)和传感器。飞行时间(ToF)相机产生深度图,该深度图可以直接被用于估计物体世界的3D结构,而不用传统的计算机视觉算法的帮助。ToF相机通过测量反射的由相机本身先前发射的红外(IR)光的相位延迟来工作。虽然已经存在于一些移动设备中,但是这技术仍然远未被接受作为常见的能力,因为它具有高得多的体积和功耗的事实(成像相机、IR发射器和IR相机,以及匹配两相机之间的图像的处理),另外,用技术上可行的红外发射器可以区分的距离是非常有限的,并且晴天期间的露天条件进一步限制了它的使用,因为来自日光的大光功率掩蔽了IR传感器。移动设备通常包含至少一个相机用于拍摄静止图像和视频。集成在移动设备中的相机向用户提供了许多能力,然而,在这些能力当中,当仅有一个相机可用时,制造商不能提供场景的真实深度图。存在仅从单个静止图像作为输入来考虑深度估计的任务的方法,大多数时候是基于已知为恒定尺寸的物体的尺寸减小和透视的启发式解释。然而,这些方法做出的假设经常无法概括所有可能的图像场景,诸如假设场景的特定视角。它们也基于关于场景的先验知识的使用;该关于场景的先验知识一般是高度不现实的假设。以这种方式获得的深度图虽然对其它任务有用,但是将总是固有地不完整,并且不足够准确以产生视觉上舒适的3D图像。从图像获得3D信息的另一方法是合成孔径积分成像(SAII)。这方法需要相机阵列(或模拟相机阵列的相机的机械移动模拟拍摄连续照片),用阵列的不同点处的相机获得多个高分辨率视角。本专利技术以新颖的方式在立体摄影中使用来自被先前技术使用的方法中的一些概念:在立体摄影中的第一步骤是相机的“校准”(由于相机被假设为已经被校准的事实,在我们的专利技术中可以避免该步骤),第二步骤被称为“校正”(其中来自立体对中的两个相机的图像被充分地处理,以推断图像,如果立体对的两个相机是完全对准和共面的,那么所述图像将被记录),我们的专利技术中的“相机校正”在立体成像中所做的是非常不同的,并且在后面被详细描述。立体摄影中的第三步骤是“对应”,处理以识别已经“校正”的立体对的两个图像中的图案(pattern),以然后执行三角测量来计算到物体世界(objectworld)的距离和构成3D图像。描述“相机校准”、“图像的校正”和“视图之间的对应”(通常两个视图)的三个步骤通常被称为“配准(registration)”。专利技术使用相同的术语,但是“对应”和“校正”(以及因此“配准”)的处理不同于先前技术,即,不同于立体相机或多视图相机。所提出的专利技术设想这样的情况,其中用户想要以单次拍摄获取并实时地从常规相机获得高分辨率的深度图。本专利技术利用在拍摄的时间期间相机遭受的移动,这种移动记录于由例如加速度计和陀螺仪设备(在撰写这个专利时在几乎任何移动电话中存在这样的设备)提供的数据。本文所提出的图像处理在所需要的图像的数目(因此相机的数目)、计算效率和功率要求方面改善了3D视觉的当前技术状况的方法。另一方面,本专利技术在空间分辨率和所得深度图中的大深度的可靠性方面改善了基于全光相机的方法。
技术实现思路
本文所描述的处理方法实现了通过具有单个常规相机的移动设备所捕获的若干图像之间的极度简化的对应算法,该若干图像被连续地捕获,并且可以通过使用加速度计、陀螺仪或集成在移动设备、汽车或任何移动物体中的这种类型的任何其它能力来计算已捕获的每个图像的位置。一旦执行了图像之间的对应匹配,图像就被用于创建场景的密集深度图。通过手持移动设备在单次拍摄中拍摄图像,可以在拍摄发生的时间流逝期间检测和处理移动设备的移动。该移动可以通过手的固有移动(手震颤)、通过来电的振动(方便地被编程为在拍摄照片或视频时振动)或因为相机在移动的物体(例如交通工具或汽车)上或因为用户在移动而产生。本文所描述的方法可以被有效地并行化,目的是在并行处理器和/或GPU(越来越广泛地使用)以及用于电池操作的移动设备的特定并行处理器中实现它们。专利技术提供了用于视频记录的实时处理。对于本专利技术的描述,后文中将考虑以下定义:-全光(plenoptic)相机:不仅能够捕获空间位置而且能够捕获入射光线的到达方向的设备。-光场:包含来自光的信息的四维结构LF(px,py,lx,ly),该光被全光相机或合成孔径积分成像系统中的微透镜(lx,ly)下方的像素(px,py)捕获。-深度:场景的物点的平面与相机的主平面之间的距离,两个平面均垂直于光轴。-极图像(epipolarimage):通过选择(py,ly)(水平极(horizontalepipolar))或(px,lx)(垂直极(verticalepipolar))的某个值构成的光场结构的二维切片,如图3中所描述的。-极线(epipolarline):与物体世界中的图像边缘对应的极图像内的连接的像素的集合。-全光视图:由通过选择某个值(px,py)取光场结构的切片形成的二维图像,对于每个微透镜(lx,ly)取相同的(px,py)。-深度图(depthmap):其中将物体世界的计算的深度值(dz)作为附加值添加到二维图像的每个位置(dx,dy),构成(dx,dy,dz)的二维图像。深度图的每个像素编码到场景中对应点的距离。-微透镜阵列(MLA):小透镜(微透镜)的阵列。-微图像:在传感器上由某微透镜产生的主孔径的图像。-基线:两个图像(由全光或常规相机或任何相机拍摄)的孔径的中心之间的距离。-立体匹配(stereomatching)(也称为对应算法):这个术语本文档来自技高网
...

【技术保护点】
1.用于从场景获取深度信息的方法,包括以下步骤:/na)在拍摄的时间期间借助于至少一个相机获取场景的多个图像,其中所述多个图像提供场景的至少两个不同的视图;/nb)对于步骤a)的每个图像,同时获取关于参考六轴参考系统的图像的位置的数据;/nc)从步骤b)的图像中选择至少两个图像;/nd)校正在步骤c)所选择的图像,从而生成校正的图像的集合;以及/ne)从校正的图像生成深度图。/n

【技术特征摘要】
【国外来华专利技术】1.用于从场景获取深度信息的方法,包括以下步骤:
a)在拍摄的时间期间借助于至少一个相机获取场景的多个图像,其中所述多个图像提供场景的至少两个不同的视图;
b)对于步骤a)的每个图像,同时获取关于参考六轴参考系统的图像的位置的数据;
c)从步骤b)的图像中选择至少两个图像;
d)校正在步骤c)所选择的图像,从而生成校正的图像的集合;以及
e)从校正的图像生成深度图。


2.根据权利要求1所述的方法,其中在拍摄的时间期间所述图像的所述位置是从用至少一个定位设备获取的定位数据的集合测量的,所述定位设备选自加速度计、IMU、AHRS、GPS、速度计和/或陀螺仪的组。


3.根据权利要求2所述的方法,其中所述定位设备刚性地附接到至少一个相机。


4.根据前面的权利要求中任一项所述的方法,其中至少一个相机与移动设备相关联。


5.根据权利要求4所述的方法,其中所述移动设备是智能电话、平板电脑、膝上型电脑或紧凑型相机。


6.根据前面的权利要求中任一项所述的方法,其中,在步骤c)中,图像基于在六轴参考系统中它们的位置被选择。


7.根据权利要求6所述的方法,其中所述图像被选择,使得它们的到相邻图像的相对距离(d)引起相邻图像之间最多一个像素的视差。


8.根据权利要求7所述的方法,其中步骤e)包括用所述校正的图像生成虚拟合成孔径积分成像系统(16200),从而生成极图像的集合。


9.根据权利要求6所述的方法,其中所述图像被选择,使得至少一个图像使得它的到其相邻图像的相对距离引起多于一个像素的视差。


10.根据权利要求9所述的方法,其中步骤e)包括用校正的图像生成虚拟立体全光系统,从而生成极图像的集合。


11.根据权利要求8或10所述的方法,其中步骤e)还包括计算来自所述极图像的集合的至少一条极线的至少一个斜率。


12.根据权利要求11所述的方法,其中所述极线优选地以子像素水平使用边缘检测算法被计算。


13.根据权利要求11所述的方法,其中所述极线优选地以子像素水平通过使用线性回归算法被计算。


14.根据权利要求11所述的方法,其中步骤e)还包括通过将所述极线的所述斜率转换成深度来获得场景的深度图。


15.根据前面的权利要求中任一项所述的方法,其中步骤e)包括使用多视图匹配算法,优选地,立体匹配算法来生成深度图。


16.根据前面的权利要求中任一项所述的方法,其中所述方法还包括从所述深度图生成所述场景的三维图像的步骤。


17.根据前面的权利要求中任一项所述的方法,其中在步骤a)中,至少一个相机在拍摄的时间期间被移动。


18.根据权利要求17所述的方法,其中至少一个相机的移动是由人手震颤产生的不确定的随机的移动。


19.根据权利要求17所述的方法,其中至少一个相机附接到相对于所述场景移动的结构,优选地汽车。


20.根据前面的权利要求中任一项所述的方法,其中步骤a)的所述多个图像由至少两个相机获取。


21.根据权利要求20所述的方法,其中所述至少两个相机被对准并且它们的相对位置是已知的。


22.根据权利要求20或21所述的方法,其中所述相机中的至少一个是全光相机。

【专利技术属性】
技术研发人员:J·V·布拉斯科克拉雷特C·蒙托柳阿尔瓦罗I·维尔吉利奥派利诺A·马丁内斯尤斯欧
申请(专利权)人:弗托斯传感与算法公司
类型:发明
国别省市:西班牙;ES

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利