【技术实现步骤摘要】
一种基于RGB-D图像的视觉语义关系检测方法
本专利技术涉及深度学习与计算机视觉,具体涉及一种视觉场景理解中的视觉语义关系检测方法。
技术介绍
在面对大量图像信息时,如果要使计算机真正理解视觉场景中的内容,则不仅需要检测出图像中的各个物体,还要提取各个物体之间的交互关系。由于图像中存在复杂的视觉场景,传统语义关系检测方法在提取其中的视觉语义关系时存在精度较低,泛化能力不足等问题。RGB-D图像中包括了RGB信息和深度(Depth)信息,其包含的信息量比传统的RGB图像更丰富,同时在语义关系检测中将RGB信息和深度信息融合也更符合人类认知的规律。本专利技术中基于RGB-D图像的视觉语义关系检测方法将这两种信息相结合,从而提升视觉语义关系检测深度模型的精度和泛化能力。
技术实现思路
有鉴于此,本专利技术提供了一种基于RGB-D图像的视觉语义关系检测方法,能够提高复杂视觉场景中视觉语义关系的检测精度和泛化能力。为了解决上述技术问题,本专利技术是这样实现的:一种基于RGB-D图像的视觉语义 ...
【技术保护点】
1.一种基于RGB-D图像的视觉语义关系检测方法,其特征在于,包括:/n步骤1、提取图像的RGB特征向量的同时估计出图像的深度图并提取对应的深度特征向量,将RGB特征向量与深度特征向量相融合;/n步骤2、将融合的特征向量输入视觉语义关系分类器,所述视觉语义关系分类器设计为同时处理RGB特征向量与深度特征向量并弱化深度特征向量部分,得到视觉语义关系检测结果。/n
【技术特征摘要】
1.一种基于RGB-D图像的视觉语义关系检测方法,其特征在于,包括:
步骤1、提取图像的RGB特征向量的同时估计出图像的深度图并提取对应的深度特征向量,将RGB特征向量与深度特征向量相融合;
步骤2、将融合的特征向量输入视觉语义关系分类器,所述视觉语义关系分类器设计为同时处理RGB特征向量与深度特征向量并弱化深度特征向量部分,得到视觉语义关系检测结果。
2.如权利要求1所述的方法,其特征在于,所述步骤1为:提取图像的候选区域,每个候选区域对应一个物体;对选取的候选区域ROI进行两两的遍历组合,形成多组主客体图像对;针对每一组主客体图像对,提取RGB特征向量与深度特征向量并进行融合。
3.如权利要求2所述的方法,其特征在于,所述RGB特征向量包括RGB外表特征向量AFlat和平面空间特征向量SFlat;
RGB外表特征向量AFlat的提取方式为:采用RGBFaster-R-CNN对所述主客体图像对进行处理,从RGBFaster-R-CNN中全连接层的第7层提取特征向量,得到主体的RGB外表特征向量AFlat-s和客体的RGB外表特征向量AFlat-o;
所述平面空间特征向量SFlat由主客体ROI的相对位置、主客体ROI的面积比、主客体ROI的重合率、主体ROI的长宽比、客体ROI的长宽比组成,并进行维度扩充,得到平面空间特征向量SFlat;
所述深度特征向量包括深度外表特征向量ADepth和深度空间特征向量SDepth;
所述深度外表特征向量ADepth的提取方式为:采用深度图估计模型估计出图像的深度图,再将所述主客体图像的ROI输入到深度Faster-R-CNN中,用于在所述深度图中定位出主体和客体,然后由深度Faster-R-CNN中全连接层的第7层提取特征向量,得到主体的深度外表特征向量ADepth-s和客体的深度外表特征向量ADepth-o;
所述深度空间特征向量SDepth的提取方式为:计算主体ROI和客体ROI中平均深度值之差ΔD,将深度空间特征向量表示为多维向量,每一维对应一种远近程度,每一维元素值定义为ΔD属于对应远近程度的隶属度。
4.如权利要求3所述的方法,其特征在于,所述平面空间特征向量SFlat表征为:
其中,SFlat(Bs,Bo)表示主体ROIBs和客体ROIBo的平面空间特征向量,S1和S2表示主客体ROI的相对位置,S3表示主客体ROI的面积比,S4表示主客体ROI的重合率,S5表示主体ROI...
【专利技术属性】
技术研发人员:甘明刚,刘晓舟,陈杰,窦丽华,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。