RGBD视频中基于局部刚性假设的场景流估计方法技术

技术编号:22595884 阅读:39 留言:0更新日期:2019-11-20 11:40
本发明专利技术公开的RGBD视频中基于局部刚性假设的场景流估计方法,首先,分别输入连续两帧RGB图像和深度图像,并计算连续两帧RGB图像之间的光流信息;其次,根据坐标转换配准输入的深度图像和RGB图像,修复深度图像中的洞和消除噪声点;然后,使用K‑means算法对修复后的深度图像分层,将深度值接近的像素值分为同一层;然后使用局部刚性全局非刚性假设将每一层分成许多的块并计算每个块的运动信息;最后,根据光流信息和深度图像的分层信息得到最终的场景流信息。本发明专利技术公开的方法与传统的计算场景流的方法相比,具有较高的精度。

Scene flow estimation based on local rigidity assumption in rgbd video

The scene flow estimation method based on the assumption of local rigidity in the rgbd video disclosed in the invention firstly inputs two consecutive RGB images and depth images respectively, and calculates the optical flow information between two consecutive RGB images; secondly, registers the input depth image and RGB image according to the coordinate conversion, repairs the holes in the depth image and eliminates the noise points; then, uses the K \u2011 means algorithm to repair The complex depth image is layered, and the pixel value close to the depth value is divided into the same layer; then each layer is divided into many blocks and the motion information of each block is calculated using the local rigid global non rigid assumption; finally, the final scene flow information is obtained according to the optical flow information and the depth image layered information. The method of the invention has higher precision compared with the traditional method of calculating scene flow.

【技术实现步骤摘要】
RGBD视频中基于局部刚性假设的场景流估计方法
本专利技术属于计算机数字图像处理
,具体涉及一种RGBD视频中基于局部刚性假设的场景流估计方法。
技术介绍
光流是指空间运动物体在观察平面上的像素运动的顺时速度,表达了图像的变化,由于它包含了目标运动的信息,因此,可被观察者用来确定目标的运动情况。由光流的定义可以引申出光流场,它是指图像中所有像素点构成的一种二维(2D)瞬时速度场,其中的二维速度矢量是景物中可见点的三维速度矢量在成像表面的投影。所以光流不仅包含了被观察物体的运动信息,而且还包含有关景物三维结构的丰富信息。通常3D场景流(SceneFlow)被看作是二维光流到三维的扩展,它能够描述空间物体运动所形成的三维运动矢量。近年来随着计算机技术的发展,场景流即相关技术研究也得到了迅速的提升和广泛的应用。在理论方面,场景流的计算方法由传统的双目立体视觉发展到用RGBD方法估计场景流。在应用方面,场景流技术可以应用于虚拟现实,目标检测,跟踪与识别等。目前,计算场景流的方法主要有两种,分别是基于双目立体视觉和基于RGBD计算场景流。前者主要是通过左右两个相机同步拍照,获得左右图像。对左右图像进行匹配,能够获得左右光流,进而得到场景流的估计。这种方法由于估计视差图而额外消耗时间的同时容易受到噪声和异常点估计的影响。随着深度传感器的诞生,基于RGBD方法成为计算场景流的主要方法。与前者相比,基于RGBD方法能够直接利用传感器获取较为精确的深度信息,因此能够提高计算准确性并节省计算时间。但是基于RGBD方法在遮挡处容易造成误差甚至错误。分层场景流方法针对RGBD方法这一缺点,分别对平滑性和不连续性建模,进而能够对遮挡的边界部分进行真实性建模;在边界建模中,对已知的场景的相对深度进行排序,进而将场景分成不同的层,然后针对不同的层次分别进行处理。现有对层处理的方法采用全局刚性的假设,由于被分割到同一层的像素可能存在不同的运动方向,因此估计出的场景流会存在误差。本文提出了一个全局非刚性运动,局部刚性假设,将同一层分成不同的块,通过估计不同块的运动来估计每层的运动,实现精确的估计。
技术实现思路
本专利技术的目的是提供一种RGBD视频中基于局部刚性假设的场景流估计方法,解决了现有研究方法由于局部区域场景流估计存在误差导致全局区域场景流估计不准确的问题。本专利技术所采用的技术方案是,RGBD视频中基于局部刚性假设的场景流估计方法,具体操作过程包括如下步骤:步骤1,分别输入连续两帧RGB图像和深度图像,并计算连续两帧RGB图像之间的光流信息;步骤2,根据坐标转换配准输入的深度图像和RGB图像,修复深度图像中的洞和消除噪声点;步骤3,使用K-means算法对修复后的深度图像分层,将深度值接近的像素值分为同一层;步骤4,使用局部刚性全局非刚性假设,将深度图像的每一层分成许多块,计算每一块的运动信息,得到深度图像的运动信息;步骤5,根据步骤1得到的RGB图像的光流信息和步骤4的深度图像的每一层的运动信息,计算得到最终的场景流信息。本专利技术的其他特点还在于,优选的,步骤2中将深度图像中的噪声根据深度值为0的连通区域的大小区分为洞和噪声点,然后根据区域相似性和颜色一致性修补洞,采用双边滤波消除噪声点。优选的,步骤2的具体过程如下:深度图像和RGB图像的配准过程:在深度图像和RGB图像中分别找到四对对应的点,这四对对应点坐标的位置信息根据式(1)得到投影矩阵,使用opencv中的函数warpPerspective()得到深度图像与RGB图像的配准图像;式中,(X,Y)为RGB图像中的像素点坐标,(x,y)为深度图像中的像素点坐标,A为投影矩阵;如果深度图像中深度值为0的连通区域的面积大于4,则该区域是洞,根据区域一致性和颜色的一致性修补洞,然后根据双边滤波消除噪声点;如果深度图像中深度值为0的连通区域的面积为4或者小于4,则该区域是噪声点,根据双边滤波消除噪声点。优选的,步骤3的具体过程如下:步骤3.1,初始化实验数据,假设深度图像D为m*n的矩阵,D={d1,d2,...dn},聚类数目设为k,设定k个聚类中心(m1,m2,...mk);输出k个类簇Cj(j=1,2,...,k);步骤3.2,对每一个样本dj,计算出距离它最近的聚类中心,然后将其分配到该类;步骤3.3,计算每一个簇中所有像素点的均值,用于重新确定聚类中心,如公式(2)所示:式中,Ni为第i个聚类的所有像素点,dij为第i簇中的第j个样本;步骤3.4,计算深度图像各点与其对应的簇中心的偏差,如式(3)所示:式中,ni表示第i簇中像素点的个数;步骤3.5,判断J值是否收敛,如果收敛,则聚类中心不变,并返回原聚类中心(m1,m2,...mk)和其对应的簇,得到深度图像的分层信息;否则,跳转依次执行步骤3.2-步骤3.5。优选的,步骤4的具体过程如下:根据步骤3得到的深度图像的分层信息,将每一层分为许多大小为3*3的块,每一个块具有相同的运动信息,不同的块之间存在有不同的运动信息;假设第t桢RGB图像中的像素点α1=(x1,y1)在第t+1桢中对应点的像素为α2=(x2,y2),则对应的光流信息为(u1,v1)=(x2-x1,y2-y1),第t桢RGB图像中的像素点α1在对应的深度图像中对应的深度值为z1,第t+1桢RGB图像中的像素点α2在对应的深度图像中对应的深度值为z2,则对应的深度变化为z=z2-z1;根据像素点的透视投影关系得到图像像素点α1和α2对应的3D空间点坐标如式(4)所示:u=X2-X1,v=Y2-Y1,z=z2-z1(4)式中,α12=(X1,Y1,Z1)是像素点α1对应的3D坐标,α22=(X2,Y2,Z2)是像素点α2对应的3D坐标,X1,Y1,Z1,X2,Y2,Z2,根据3D和2D之间的映射关系如式(5)得到:式中,fx,fy和cx,cy分别是相机的焦距和畸变系数;场景的运动包含旋转Rtk和平移τtk,空间点α22的坐标根据空间点α12得到,如式(6)所示:α22=Rt,kα12T+τt,k(6)空间点α22对应的图像坐标为则对应的场景流如式(7)-(9)所示:其中,分别为水平,垂直和深度方向的变化。优选的,步骤5的具体过程如下:使用坐标下降法最小化RGBD分层场景流能量函数,如式(10)所示:式中,是每层的运动,,包括2D运动{utk,vtk}和深度变化wtk,Edata反应了第t连和第t+1帧连续两帧在2D运动{utk,vtk}后的时间一致性;Espa反映了每层像素分别在垂直,水平,深度方向上经过运动R,τ后的区域一致性,这里R是旋转,τ是平移;Esup反映了层辅助函数的空间一致性和表面运动{utk,vtk}的时间一致性;λdata本文档来自技高网
...

【技术保护点】
1.RGBD视频中基于局部刚性假设的场景流估计方法,其特征在于,具体操作过程包括如下步骤:/n步骤1,分别输入连续两帧RGB图像和深度图像,并计算连续两帧RGB图像之间的光流信息;/n步骤2,根据坐标转换配准输入的深度图像和RGB图像,修复深度图像中的洞和消除噪声点;/n步骤3,使用K-means算法对修复后的深度图像分层,将深度值接近的像素值分为同一层;/n步骤4,使用局部刚性全局非刚性假设,将深度图像的每一层分成许多块,计算每一块的运动信息,得到深度图像的运动信息;/n步骤5,根据步骤1得到的RGB图像的光流信息和步骤4的深度图像的每一层的运动信息,计算得到最终的场景流信息。/n

【技术特征摘要】
1.RGBD视频中基于局部刚性假设的场景流估计方法,其特征在于,具体操作过程包括如下步骤:
步骤1,分别输入连续两帧RGB图像和深度图像,并计算连续两帧RGB图像之间的光流信息;
步骤2,根据坐标转换配准输入的深度图像和RGB图像,修复深度图像中的洞和消除噪声点;
步骤3,使用K-means算法对修复后的深度图像分层,将深度值接近的像素值分为同一层;
步骤4,使用局部刚性全局非刚性假设,将深度图像的每一层分成许多块,计算每一块的运动信息,得到深度图像的运动信息;
步骤5,根据步骤1得到的RGB图像的光流信息和步骤4的深度图像的每一层的运动信息,计算得到最终的场景流信息。


2.如权利要求1所述的RGBD视频中基于局部刚性假设的场景流估计方法,其特征在于,所述步骤2中将深度图像中的噪声根据深度值为0的连通区域的大小区分为洞和噪声点,然后根据区域相似性和颜色一致性修补洞,采用双边滤波消除噪声点。


3.如权利要求1所述的RGBD视频中基于局部刚性假设的场景流估计方法,其特征在于,所述步骤2的具体过程如下:
深度图像和RGB图像的配准过程:在深度图像和RGB图像中分别找到四对对应的点,这四对对应点坐标的位置信息根据式(1)得到投影矩阵,使用opencv中的函数warpPerspective()得到深度图像与RGB图像的配准图像;



式中,(X,Y)为RGB图像中的像素点坐标,(x,y)为深度图像中的像素点坐标,A为投影矩阵;
如果深度图像中深度值为0的连通区域的面积大于4,则该区域是洞,根据区域一致性和颜色的一致性修补洞,然后根据双边滤波消除噪声点;
如果深度图像中深度值为0的连通区域的面积为4或者小于4,则该区域是噪声点,根据双边滤波消除噪声点。


4.如权利要求1所述的RGBD视频中基于局部刚性假设的场景流估计方法,其特征在于,所述步骤3的具体过程如下:
步骤3.1,初始化实验数据,假设深度图像D为m*n的矩阵,D={d1,d2,...dn},聚类数目设为k,设定k个聚类中心(m1,m2,...mk);输出k个类簇Cj(j=1,2,...,k);
步骤3.2,对每一个样本dj,计算出距离它最近的聚类中心,然后将其分配到该类;
步骤3.3,计算每一个簇中所有像素点的均值,用于重新确定聚类中心,如公式(2)所示:



式中,Ni为第i个聚类的所有像素点,dij为第i簇中的第j个样本;
步骤3.4,计算深度图像各点与其对应的簇中心的偏差,如式(3)所示:



式中,ni表示第i簇中像素点的个数;
步骤3.5,判断J值是否收敛,如果收敛,则聚类中心不变,并返回原聚类中心(m1,m2,...

【专利技术属性】
技术研发人员:李秀秀刘沿娟金海燕蔡磊
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利