当前位置: 首页 > 专利查询>浙江大学专利>正文

基于概率图模型的非参数化的RGB-D场景理解方法技术

技术编号:11415140 阅读:122 留言:0更新日期:2015-05-06 14:59
本发明专利技术公开了一种基于概率图模型的非参数化的RGB-D场景理解方法。将待标注图像与训练集中已标注的图像进行全局特征匹配,构建待标注图像相似图像的检索集;将待标注图像及其相似图像检索集中的图像进行过分割,生成超像素,并对生成的超像素进行特征提取;计算训练集中各个类别所占的比例,构建稀有类别的词典,与相似图像的检索集一起作为待标注图像的标签源;将待标注图像中的每个超像素与该图像标签源中的所有超像素进行特征匹配;构建概率图模型,利用马尔科夫随机场将最大化后验概率转化成最小化能量函数的优化问题,利用图割方法求解该问题得到待标注图像每个超像素的语义标注。本发明专利技术整合了全局和局部的几何信息,提高了RGB-D场景理解的性能。

【技术实现步骤摘要】
基于概率图模型的非参数化的RGB-D场景理解方法
本专利技术属于图像处理
,具体涉及一种基于概率图模型的非参数化的RGB-D场景理解方法。
技术介绍
场景理解是用模式识别和人工智能的方法对场景图像进行分析、描述、分类和解释,最终得到场景图像逐像素语义标注的技术,是计算机视觉的一个重要课题,在机器人导航、虚拟现实、安防监控以及网络搜索领域有着广泛的应用。场景理解的方法主要分为参数化方法和非参数化方法两大类。参数化的方法大多都基于依赖训练的生成模型,而非参数化的方法则无需依赖任何训练,通过图像间的相似性传递语义标签。在参数化的方法中,需要对场景中的每个类别分别训练一个分类器,然后利用贝叶斯网络或者马尔科夫随机场(MRF)等概率图模型构建得到生成模型。这种方法对于场景类别的伸缩性非常差,一旦场景的语义类别发生增减,就需要对所有语义类别重新进行训练,而且训练是一个非常耗费时间和计算资源的过程,导致参数化的场景理解方法在实际应用中受到了极大的限制。然而,大数据时代的到来为场景理解打开了非参数化方法的大门。不同于训练复杂的参数化模型,非参数化方法试图利用图像像素或者超像素间的匹配将已标注的相似图像的语义标签传递给待标注的图像。在数据集中的数据量足够大的前提下,我们总是能够找到与目标待标注图像场景相似的图像,而相似的场景所包含的语义信息往往是相似的,这为图像间语义标签的传递提供了可能。传统的非参数化场景理解方法主要针对二维图像展开研究,随着激光雷达以及微软Kinect等距离传感器的面世,场景深度信息的获取变得越来越容易,结合三维点云数据或者致密深度等三维信息的场景理解方法受到了学者的广泛关注和研究。然而现有的RGB-D图像的场景理解都基于参数化的方法,如何快速高效高性能并且鲁棒地实现非参数化的RGB-D场景理解是目前面临的难题。
技术实现思路
本专利技术的目的在于针对参数化RGB-D场景理解方法的不足,提供一种基于概率图模型的非参数化的RGB-D场景理解方法,该方法避免了参数化方法耗时耗资源的离线训练,利用图像超像素间的相似性进行语义标签的转移,计算高效且能适应各种场景。同时,本专利技术提出的双向匹配以及基于协同表示分类(CRC)的标签转移机制使得本专利技术的方法与传统的非参数化场景理解方法相比,有效的减少了超像素之间的误匹配,取得了更好的性能。本专利技术的目的是通过以下技术方案来实现的:一种基于概率图模型的非参数化的RGB-D场景理解方法,包括如下步骤:(1)输入待标注图像,利用GIST特征、颜色直方图、法向量直方图三种全局特征将待标注图像与训练集中的图像进行特征匹配,构建待标注图像的相似图像检索集;(2)将步骤1输入的待标注图像及得到的相似图像检索集中的图像进行过分割,生成超像素,并利用梯度核描述符、颜色核描述符以及深度梯度核描述符三种核描述符(Kerneldescriptor)提取超像素的特征fi,其中i表示超像素的索引值;计算训练集中各个语义类别所占的比例,分别对各个稀有类别的超像素进行K-means聚类,取每个聚类的中心构建该稀有类别的词典;将所有稀有类别的词典与步骤1得到的相似图像检索集一起作为待标注图像的标签源;(3)将步骤2得到的待标注图像中的每个超像素的特征与该图像标签源中的所有超像素的特征进行双向特征匹配,生成匹配集匹配度用基于协同表示分类(CRC)的残差度量;其中P,Q分别表示待标注图像中所有超像素的数量和标签源中所有超像素的数量;(4)把步骤2得到的超像素的特征作为节点,将具有共同边界的超像素相连,构建概率图模型,将求解最大化后验概率的问题转化成求解最小化能量函数的马尔科夫随机场(MRF),其描述如下:其中,L表示待标注图像所有超像素的标签集,ψdata是马尔科夫随机场(MRF)的数据项,ψsmooth是马尔科夫随机场(MRF)的平滑项,li和lj分别表示索引值为i和j的超像素的语义标签,λ是平衡系数。(5)根据步骤3得到的匹配结果构建马尔科夫随机场(MRF)的数据项ψdata,其描述如下:其中si表示索引值为i的超像素,Fc表示步骤4得到的匹配集mi中标签为c的超像素的核描述符按列排列构建得到的测量矩阵,为测量矩阵Fc对应的系数矩阵,C(si)表示匹配集mi中语义类别集合,β是一个自定义的比大的常数,用来惩罚的情况;根据图像超像素邻域间的平滑关系构建马尔科夫随机场(MRF)的平滑项ψsmooth,其描述如下:其中表示相邻超像素表面法向量间的平滑性,表示相邻超像素的核描述符之间的平滑性。所述对待标注图像的相似图像检索集的求解方法具体为:分别计算待标注图像与训练集中所有图像的GIST特征、颜色直方图以及法向量直方图之间的欧氏距离,分别取距离最小的前K1个图像,将三种全局特征匹配得到的3K1个图像的交集作为待标注图像相似图像的检索集,K1是一个自定义的常数。所述对稀有类别字典的求解方法具体为:计算训练集中各个语义类别所占的比例,将占比不超过3%的语义类别定义为稀有类别,利用K-means聚类分别将属于各个稀有类别的超像素聚成K2类,提取K2个聚类中心作为该稀有类别的词典,K2是一个自定义的常数。步骤3所述利用双向匹配策略对待标注图像中的每个超像素匹配集的求解方法具体为:对一个待标注的超像素si,先根据该超像素与检索集中超像素核描述符特征的欧氏距离,在检索集中选出距离该超像素最近的K3个超像素,K3是一个自定义的常数;然后对其中的每个超像素sj,根据核描述符特征的欧氏距离在待标注图像中找出其最近邻N(sj),当sj不满足以下条件时,将sj从si的匹配集mi中移除掉,其描述如下:D(si,N(sj))≤ε1andH(si,N(sj))≤ε2(5)式中D表示超像素间二维的空间距离,H表示超像素三维的高度差。步骤5所述对马尔科夫随机场(MRF)数据项ψdata的求解方法具体为:用基于协同表示分类(CRC)的匹配残差来构建数据项,其描述如下:式中γ是一个自定义的权重标量,F是匹配集mi中所有超像素的核描述符按列排列构建得到的测量矩阵。所述对马尔科夫随机场(MRF)数据项ψsmooth的求解方法具体为:利用相邻超像素间表面法向量的角度以及特征的相似度来对邻域进行平滑,其描述如下:其中式中ni表示超像素si的表面法向量,σ是一个自定义的常数。本专利技术具有的有益效果是:本专利技术结合了图像全局和局部的几何信息,并利用双向匹配以及基于协同表示分类(CRC)的标签转移机制有效的减少了超像素间的误匹配,取得了良好的标注准确率。同时,本专利技术避免了传统参数化RGB-D场景理解方法耗时耗力的模型训练,计算高效,能同时适用于室内外场景。附图说明图1为构建待标注图像标签源的示意图;图2为训练集中属于各个语义类别的超像素的占比图;图3为实施例1采用现有场景理解方法与本专利技术方法对室内场景图像进行语义标注的结果对比图;分为(a)-(f)部分,其中(a)为待标注图像,(b)为待标注图像对应的致密深度图,(c)为Superparsing(RGB)算法得到的语义标注结果图,(d)为没有结合深度信息情况下,本专利技术方法得到的语义标注结果图,(e)为结合深度信息后,本专利技术方法得到的语义标注结果图,(f)为待标注图像人工标注的真值图;图4为实施例2采用现有本文档来自技高网
...
基于概率图模型的非参数化的RGB-D场景理解方法

【技术保护点】
一种基于概率图模型的非参数化的RGB‑D场景理解方法,其特征在于,包括如下步骤:(1)输入待标注图像,利用GIST特征、颜色直方图、法向量直方图三种全局特征将待标注图像与训练集中的图像进行特征匹配,构建待标注图像的相似图像检索集;(2)将步骤1输入的待标注图像及得到的相似图像检索集中的图像进行过分割,生成超像素,并利用梯度核描述符、颜色核描述符以及深度梯度核描述符三种核描述符(Kernel descriptor)提取超像素的特征fi,其中i表示超像素的索引值;计算训练集中各个语义类别所占的比例,分别对各个稀有类别的超像素进行K‑means聚类,取每个聚类的中心构建该稀有类别的词典;将所有稀有类别的词典与步骤1得到的相似图像检索集一起作为待标注图像的标签源;(3)将步骤2得到的待标注图像中的每个超像素的特征与该图像标签源中的所有超像素的特征进行双向特征匹配,生成匹配集匹配度用基于协同表示分类(CRC)的残差度量;其中P,Q分别表示待标注图像中所有超像素的数量和标签源中所有超像素的数量;(4)把步骤2得到的超像素的特征作为节点,将具有共同边界的超像素相连,构建概率图模型,将求解最大化后验概率的问题转化成求解最小化能量函数的马尔科夫随机场(MRF),其描述如下:E(L)=Σiψdata(li)+λΣi,jψsmooth(li,lj)---(1)]]>其中,L表示待标注图像所有超像素的标签集,ψdata是马尔科夫随机场(MRF)的数据项,ψsmooth是马尔科夫随机场(MRF)的平滑项,li和lj分别表示索引值为i和j的超像素的语义标签,λ是平衡系数;(5)根据步骤3得到的匹配结果构建马尔科夫随机场(MRF)的数据项ψdata,其描述如下:ψdata(li=c)=||fi-Fcαc*||2ifc∈C(Si)βotherwisr---(2)]]>其中si表示索引值为i的超像素,Fc表示步骤4得到的匹配集mi中标签为c的超像素的核描述符按列排列构建得到的测量矩阵,为测量矩阵Fc对应的系数矩阵,C(si)表示匹配集mi中语义类别集合,β是一个自定义的比大的常数,用来惩罚的情况;根据图像超像素邻域间的平滑关系构建马尔科夫随机场(MRF)的平滑项ψsmooth,其描述如下:其中δ(c≠c′)=1c≠c′0c=c′---(4)]]>其中表示相邻超像素表面法向量间的平滑性,表示相邻超像素的核描述符之间的平滑性。...

【技术特征摘要】
1.一种基于概率图模型的非参数化的RGB-D场景理解方法,其特征在于,包括如下步骤:(1)输入待标注图像,利用GIST特征、颜色直方图、法向量直方图三种全局特征将待标注图像与训练集中的图像进行特征匹配,构建待标注图像的相似图像检索集;(2)将步骤1输入的待标注图像及得到的相似图像检索集中的图像进行过分割,生成超像素,并利用梯度核描述符、颜色核描述符以及深度梯度核描述符三种核描述符(Kerneldescriptor)提取超像素的特征fi,其中i表示超像素的索引值;计算训练集中各个语义类别所占的比例,分别对各个稀有类别的超像素进行K-means聚类,取每个聚类的中心构建该稀有类别的词典;将所有稀有类别的词典与步骤1得到的相似图像检索集一起作为待标注图像的标签源;对稀有类别的字典的求解方法具体为:计算训练集中各个语义类别所占的比例,将占比不超过3%的语义类别定义为稀有类别,利用K-means聚类分别将属于各个稀有类别的超像素聚成K2类,提取K2个聚类中心作为该稀有类别的词典,K2是一个自定义的常数;(3)将步骤2得到的待标注图像中的每个超像素的特征与该图像标签源中的所有超像素的特征进行双向特征匹配,生成匹配集匹配度用基于协同表示分类(CRC)的残差度量;其中P,Q分别表示待标注图像中所有超像素的数量和标签源中所有超像素的数量;(4)把步骤2得到的超像素的特征作为节点,将具有共同边界的超像素相连,构建概率图模型,将求解最大化后验概率的问题转化成求解最小化能量函数的马尔科夫随机场(MRF),其描述如下:其中,L表示待标注图像所有超像素的标签集,ψdata是马尔科夫随机场(MRF)的数据项,ψsmooth是马尔科夫随机场(MRF)的平滑项,li和lj分别表示索引值为i和j的超像素的语义标签,λ是平衡系数;(5)根据步骤3得到的匹配结果构建马尔科夫随机场(MRF)的数据项ψdata,其描述如下:其中si表示索引值为i的超像素,Fc表示步骤3得到的匹配集mi中标签为c的超像素的核描述符...

【专利技术属性】
技术研发人员:费婷婷龚小谨
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1