一种基于超像素时空上下文的RGB-D室内场景标注方法技术

技术编号:21247804 阅读:24 留言:0更新日期:2019-06-01 07:53
本发明专利技术公开了一种基于超像素时空上下文的RGB‑D室内场景标注方法,在计算机视觉领域,将数字图像细分为多个图像子区域的过程称为超像素分割。超像素通常是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域保留了局部有效信息,且一般不会破坏图像中物体的边界信息。本方法中以0.08阈值确定的超像素的语义标注为优化目标,以0.06分割阈值确定的超像素作为空间上下文,用于优化语义标注结果。对叶节点以及中间节点对应的每一块超像素进行语义分类,得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率。本发明专利技术显著优于现有常规室内场景标注方法。

A RGB-D indoor scene annotation method based on super-pixel spatio-temporal context

The invention discloses a RGB D indoor scene annotation method based on super-pixel space-time context. In the field of computer vision, the process of subdividing digital images into multiple image sub-regions is called super-pixel segmentation. Super-pixels are usually small areas composed of a series of adjacent pixels with similar color, brightness and texture characteristics. These small areas retain local effective information and generally do not destroy the boundary information of objects in the image. In this method, the semantic annotation of super-pixels determined by 0.08 threshold is taken as the optimization objective, and the spatial context of super-pixels determined by 0.06 segmentation threshold is used to optimize the results of semantic annotation. Semantic classification of each super-pixel corresponding to leaf nodes and intermediate nodes is carried out, and the probability of semantic annotation of each super-pixel in the hyper-pixel segmentation image with 0.06 and 0.08 thresholds is obtained. The invention is significantly superior to the conventional indoor scene annotation method.

【技术实现步骤摘要】
一种基于超像素时空上下文的RGB-D室内场景标注方法
本专利技术涉及RGB-D室内场景图像标注,属于计算机视觉及模式识别领域。
技术介绍
室内场景图像的语义标注是目前基于视觉的场景理解中一项具有挑战性的任务,基本目标是为给定室内场景图像(或拍摄的室内场景视频中的帧)中的每一个像素稠密地提供一个预定义的语义类别标签。室内场景中存在大量的语义类别、场景对象互相遮挡、底层视觉特征辨识力较弱以及不均匀光照等问题,使得室内场景图像标注面临巨大困难。随着深度传感器的普及,目前已能够便捷且可靠地获得包含颜色、纹理和深度的RGB-D数据。RGB-D室内场景标注通常有两类方法,一是基于定义特征的RGB-D室内场景标注;二是基于学习特征的RGB-D室内场景标注。本专利技术提出一种基于超像素时空上下文的RGB-D室内场景标注方法,属于基于定义特征的RGB-D室内场景标注方法。以下针对基于定义特征的RGB-D室内场景标注主要方法给出综合分析。作为利用深度信息进行室内场景语义标注的先驱,Silberman等从彩色图像(RGB)、深度图像(Depth)以及经旋转处理后的RGB中提取SIFT特征描述子,对该特征描述子通过反馈式前向神经网络进行语义分类从而得到图像语义标注结果。在得到语义标注结果后进一步使用简单的CRFs(条件随机场概率图模型)进行优化。Ren等人利用gPb/UCM算法对图像进行超像素分割,基于分割阈值将超像素集合组合为层次化树结构。在RGB-D图像上稠密的计算Patch(图像块)的特征描述,基于Patch特征计算超像素区域的特征描述。在语义分类时,超像素特征做为SVM的输入,给出每个超像素的分类结果。基于SVM分类器得到的标签向量构建新的超像素类别特征,使用新特征构建MRFs(马尔科夫随机场)模型对识别结果进行进一步的优化。在语义识别中,一个共识是使用更多上下文信息,识别的结果通常更为准确。像素级空间上下文通常基于像素间邻接关系构建MRF或CRF模型,约束邻接像素点语义标签一致。超像素级空间上下文,将存在包含关系的超像素特征串接作为分类特征,或者使用超像素信息CRF模型。超像素信息CRF模型中,像素点的预估计概率作为一元能量,像素点对的特征差异作为二元能量,超像素信息作为高层次能量,通过求解定义的能量函数来确定最优的标签。在对时间上下文的使用中,Kundu认为在同一场景下的视频序列中相邻帧间像素信息存在重叠,故提出一种新的稠密CRF模型方法,二元项计算时先通过光流追踪相邻帧间具有对应关系的点对,并将有对应关系的点对间特征欧式距离作为二元能量,最终用优化完成的CRF模型预测每个像素点的对应标签。专利技术目的本专利技术的目的在于充分利用时间和空间上下文,在标注过程中利用连续帧图像计算超像素时间上下文,利用层次超像素分割提供的空间上下文联合完成室内场景标注任务。为实现上述目的,本专利技术采用的技术方案为一种基于超像素时空上下文的RGB-D室内场景标注方法,输入为待标注图像Frtar及其时间序上的前后相邻帧Frtar-1、Frtar+1,输出为Frtar的像素级标注。基于光流算法计算待标注图像Frtar中每个超像素在Frtar时序上的相邻帧Frtar-1和Frtar+1中的对应超像素,对应超像素即是其时间上下文;利用gPb/UCM算法对图像进行超像素分割,且根据阈值将分割结果组织为分割树,Frtar中的每个超像素在分割树中的子结点即是其空间上下文。构造Frtar中每个超像素基于时间上下文的特征表示,采用梯度提升树(GradientBoostDecisionTree,GBDT)利用超像素的基于时间上下文特征进行分类;利用超像素空间上下文加权组合超像素及其空间上下文的语义分类结果,得到Frtar中超像素的语义标注。S1超像素在计算机视觉领域,将数字图像细分为多个图像子区域的过程称为超像素分割。超像素通常是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域保留了局部有效信息,且一般不会破坏图像中物体的边界信息。S1.1图像的超像素分割超像素分割使用gPb/UCM算法,通过图像局部、全局特征计算像素属于边界的概率值将gPb/UCM算法分别应用于彩色图像和深度图像,按照式(1)计算。式(1)中,是基于彩色图像计算得到的像素属于边界的概率值,是基于深度图像计算得到的像素属于边界的概率值。依据公式(1)得到的概率值和设定不同的概率阈值tr来得到多层次分割的结果。在本方法中设定的概率阈值tr为0.06和0.08,按照八连通原则,将概率值小于设定阈值的像素连成一个区域,每个区域即为一个超像素。S1.2Patch特征Patch定义为m×m大小的网格,以n个像素为步长从彩色图像和深度图像左上角向右向下进行滑动,最终在彩色图像和深度图像上形成密集的网格。本方法在实验中设置Patch的尺寸为16×16,选取Patch时滑动步长n取值为2,大小为N*M的图像,最终得到的Patch数量为针对每个Patch计算四类特征:深度梯度特征、彩色梯度特征、彩色特征、纹理特征。S1.2.1深度梯度特征深度图像中的Patch记为Zd,对每个Zd计算深度梯度特征Fg_d,其中第t个分量的值由公式(2)定义:公式(2)中,z∈Zd表示像素z在深度Patch中的相对二维坐标位置;和分别表示像素z的深度梯度方向和梯度大小;和分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。和分别为深度梯度高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用EMK(EfficientMatchKernel)算法对深度梯度特征进行变换,变换后的特征向量仍然记为Fg_d。S1.2.2彩色梯度特征彩色图像中的Patch记为Zc,对每个Zc计算彩色梯度特征Fg_c,其中第t个分量的值由公式(3)定义:公式(3)中,z∈Zc表示一个像素z在彩色图像Patch中的相对二维坐标位置;和分别表示像素z的梯度方向和梯度大小;和分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。和分别为彩色梯度高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用EMK算法对彩色梯度特征进行变换,变换后的特征向量仍然记为Fg_c。S1.2.3彩色特征彩色图像中的Patch记为Zc,对每个Zc计算彩色特征Fcol,其中第t个分量的值由公式(4)定义:公式(4)中,z∈Zc表示像素z在彩色图像Patch中的相对二维坐标位置;r(z)为三维向量,是像素z的RGB值;和分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;是在上应用核主成分分析KPCA得到的第t个主成分的映射系数,表示克罗内克积。和分别为彩色高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用EMK算法对彩色特征进行变换,变换后的特征向量仍然记为Fcol。S1.2.4纹理特征(Texture本文档来自技高网...

【技术保护点】
1.一种基于超像素时空上下文的RGB‑D室内场景标注方法,其特征在于:输入为待标注图像Frtar及其时间序上的前后相邻帧Frtar‑1、Frtar+1,输出为Frtar的像素级标注;基于光流算法计算待标注图像Frtar中每个超像素在Frtar时序上的相邻帧Frtar‑1和Frtar+1中的对应超像素,对应超像素即是其时间上下文;利用gPb/UCM算法对图像进行超像素分割,且根据阈值将分割结果组织为分割树,Frtar中的每个超像素在分割树中的子结点即是其空间上下文;构造Frtar中每个超像素基于时间上下文的特征表示,采用梯度提升树利用超像素的基于时间上下文特征进行分类;利用超像素空间上下文加权组合超像素及其空间上下文的语义分类结果,得到Frtar中超像素的语义标注;S1超像素在计算机视觉领域,将数字图像细分为多个图像子区域的过程称为超像素分割;超像素通常是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域保留了局部有效信息,且一般不会破坏图像中物体的边界信息;S1.1图像的超像素分割超像素分割使用gPb/UCM算法,通过图像局部、全局特征计算像素属于边界的概率值

【技术特征摘要】
1.一种基于超像素时空上下文的RGB-D室内场景标注方法,其特征在于:输入为待标注图像Frtar及其时间序上的前后相邻帧Frtar-1、Frtar+1,输出为Frtar的像素级标注;基于光流算法计算待标注图像Frtar中每个超像素在Frtar时序上的相邻帧Frtar-1和Frtar+1中的对应超像素,对应超像素即是其时间上下文;利用gPb/UCM算法对图像进行超像素分割,且根据阈值将分割结果组织为分割树,Frtar中的每个超像素在分割树中的子结点即是其空间上下文;构造Frtar中每个超像素基于时间上下文的特征表示,采用梯度提升树利用超像素的基于时间上下文特征进行分类;利用超像素空间上下文加权组合超像素及其空间上下文的语义分类结果,得到Frtar中超像素的语义标注;S1超像素在计算机视觉领域,将数字图像细分为多个图像子区域的过程称为超像素分割;超像素通常是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域保留了局部有效信息,且一般不会破坏图像中物体的边界信息;S1.1图像的超像素分割超像素分割使用gPb/UCM算法,通过图像局部、全局特征计算像素属于边界的概率值将gPb/UCM算法分别应用于彩色图像和深度图像,按照式(1)计算。式(1)中,是基于彩色图像计算得到的像素属于边界的概率值,是基于深度图像计算得到的像素属于边界的概率值。依据公式(1)得到的概率值和设定不同的概率阈值tr来得到多层次分割的结果。在本方法中设定的概率阈值tr为0.06和0.08,按照八连通原则,将概率值小于设定阈值的像素连成一个区域,每个区域即为一个超像素;S1.2Patch特征Patch定义为m×m大小的网格,以n个像素为步长从彩色图像和深度图像左上角向右向下进行滑动,最终在彩色图像和深度图像上形成密集的网格;本方法在实验中设置Patch的尺寸为16×16,选取Patch时滑动步长n取值为2,大小为N*M的图像,最终得到的Patch数量为针对每个Patch计算四类特征:深度梯度特征、彩色梯度特征、彩色特征、纹理特征;S1.3超像素特征超像素特征Fseg定义如(6)式:分别表示超像素深度梯度特征、彩色梯度特征、彩色特征和纹理特征,定义如(7)式:式(7)中,Fg_d(p),Fg_c(p),Fcol(p),Ftex(p)表示第p个中心位置落入超像素seg内的Patch的特征,n表示中心位置落入超像素seg内的Patch的数量。超像素几何特征按(8)式定义:式(8)中各分量定义如下:超像素面积Aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长Pseg定义如式(9):公式(9)中,M、N分别表示RGB场景图像的横、纵向分辨率;seg、seg′表示不同的超像素;N4(s)是像素s的四邻域集合;Bseg是超像素seg的边界像素集合。超像素的面积周长比Rseg定义如式(10):是基于像素s的x坐标sx、y坐标sy、x坐标与y坐标乘积分别计算的二阶(2+0=2或0+2=2)Hu矩,定义如式(11)、(12)、(13)公式(14)中分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方,定义如式(14):Width,Height分别表示图像宽度和高度,即基于归一化的像素坐标值进行计算。Dvar分别表示超像素seg内像素s深度值sd的平均值,深度值sd平方的平均值、深度值方差,定义如式(15):Dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):Nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法(PCA)估计。S2超像素上下文本方法基于RGB-D图像序列时序关系和超像素分割的树结构,分别构造时间上下文和空间上下文;S2.1超像素时间上下文S2.1.1帧间光流计算在本方法中,定义目标帧到参考帧计算得到的光流为正向光流,参考帧到目标帧计算得到的光流为反向光流。(1)初始光流估计帧间初始光流估计采用SimpleFlow方法;对两帧图像Frtar和Frtar+1,(x,y)表示Frtar中像素点,(u(x,y),v(x,y))表示在(x,y)处的光流向量;定义图像Frtar为目标帧,图像Frtar+1为参考帧,则图像Frtar到图像Frtar+1的正向光流是Frtar中所有像素点的光流向量的集合,即{(u(x,y),v(x,y))|(x,y)∈Frtar};以下过程中u(x,y)和v(x,y)分别简记为u和v,则Frtar中像素(x,y)根据光流计算得到的在Frtar+1中对应像素点为(x+u,y+v);首先,计算图像Frtar到图像Frtar+1的正向光流,对Frtar帧像素点(x0,y0),以其为中心取尺寸为a×a的窗口在本方法中取a=10,W1内任意点(p,q)在Frtar+1帧中的对应像素点是(p+u,q+v),对窗口W1中所有点计算能量项e,如式(17)e(p,q,u,v)=||Inttar(p,q)-Inttar+1(p+u,q+v)||2(17)其中,(p,q)∈W1,Inttar(p,q)表示Frtar中像素点(p,q)的像素点颜色信息,Inttar+1(p+u,q+v)表示Frtar+1中像素点(p+u,q+v)的像素点颜色信息,依次对窗口中的每对点计算可得到a2维的向量e;然后,基于局部平滑似然模型结合颜色特征和局部距离特征优化光流向量如式(18)所示:式(18)中E(x0,y0,u,v)是局部区域能量,表示图像Frtar帧中像素点(x0,y0)处正向光流向量(u,v)的能量,是Frtar帧中(x0,y0)为中心的窗口W1内所有像素点能量项e的加权累加;本方法中设O=20,表示光流向量(u,v)变化范围;距离权重wd和颜色权重wc由像素点(x0,y0)与其依据光流(u,v)计算得到的对应点(x0+u,y0+v)的距离差异和颜色差异决定,设定彩色参数σc=0.08(经验值),距离参数σd=5.5(经验值);使E能量最小的(u,v)即是像素点(x0,y0)的光流向量估计结果,对Frtar帧图像上所有像素点计算光流向量得到图像Frtar到图像Frtar+1的正向光流;同样,计算Frtar+1帧到Frtar帧的反向光流;(2)遮挡点检测记图像Frtar帧中到图像Frtar+1帧正向光流为{(uf(x),vf(y))|(x,y)∈Frtar},以及图像Frtar+1帧到图像Frtar的反向光流结果为{(ub(x′),vb(y′))|(x′,y′)∈Frtar+1};对像素(x,y)计算||(uf(x),vf(v))-(-ub(x+uf(x)),-vb(y+vf(y)))||,若该值不为0则认为像素点(x,y)为遮挡点;(3)遮挡点光流的重新估算对被标记为遮挡点的像素(x0,y0),利用式(19)重新估计光流能量,记为Eb(x0,y0,u,v):式(19)中,表示Frtar帧像素点(x0,y0)处不同光流估计值对应的能量项e的平均值;表示Frtar帧像素点(x0,y0)处不同光流估计值对应能量项e的最小值;wr(x0,y0)为能量项e均值和最小能量项e值的差,对标记为遮挡的像素点(x0,y0)使Eb最小的(u,v)即使像素(x0,y0)处的光流向量;对标记为遮挡点的像素,其最终光流向量采用步骤(3)重新估计的光流向量;S2.1.2超像素时间上下文及其特征表示利用S1.1计算的超像素分割图的方法对Frtar帧图像、Frtar-1帧图像和Frtar+1帧图像进行超像素分割;(1)超像素时间上下文首先根据Frtar到Frtar+1的正向光流计算Frtar帧超像素Segtar包含的所有像素点{(x,y)|(x,y)∈Segtar}的正向光流{(uf(x),vf(y))|(x,y)∈Segtar}的均值如式(20)所示:式(20)中,Num(Segtar)表示超像素Segtar包含的像素点的数量,依据正向光流均值计算超像素Segtar包含的像素点在Frtar+1的对应像素,得到区域Segtar={(x′,y′)|x′=x+uf(x),y′=y+uf(y),(x,y)∈Segtar,(x′,y′)∈Frtar+1},称为超像素Segtar在Frtar+1的对应区域;计算Seg′tar与Frtar+1帧中第i个超像素的交并比IOU如式(21)所示:式(21)中,Num(·)表示区域包含像素点数量;若则依据Frtar+1到Frtar的反向光流计算超像素在Frtar帧的对应区域Seg′tar,依据式(21)计算区域Seg′tar与超像素Segtar的交并比IOU(Seg′tar,Segtar);若IOU(Seg′tar,Segtar)τ,则称为超像素Segtar在Frt...

【专利技术属性】
技术研发人员:王立春王梦涵王少帆孔德慧
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1