一种基于形状感知和像素卷积的跨模态RGB-D语义分割方法技术

技术编号:38198307 阅读:12 留言:0更新日期:2023-07-21 16:36
本发明专利技术属于计算机视觉领域,提供了一种基于形状感知的跨模态RGB

【技术实现步骤摘要】
一种基于形状感知和像素卷积的跨模态RGB

D语义分割方法


[0001]本专利技术涉及计算机视觉和图像处理领域,特别地涉及一种基于形状感知和像素卷积的跨模态RGB

D语义分割方法。

技术介绍

[0002]语义分割涉及将一些原始数据作为输入并将它们转换为具有突出显示的感兴趣区域的掩膜,其中图像中的每个像素根据其所属的对象被分配类别ID。语义分割将属于同一目标的图像部分聚集在一起解决这个问题,从而扩展了其应用领域。与其他的基于图像的任务相比,语义分割是完全不同且先进的。简而言之,在计算机视觉领域,语义分割是基于全卷积的像素分类任务。
[0003]单一的模态的RGB语义分割在面临复杂场景等挑战性因素,难以明确目标的轮廓从而精准的进行语义分割。并且难以准确和完整地从背景中准确定位出所有目标并分类。因此,为了解决这个问题,将深度(Depth)图像引入到语义分割,通过联合RGB图像和Depth图像相结合构成了RGB

D进行语义分割。
[0004]由于Depth Map主要能够提供目标边缘等信息。将Depth图引入到语义分割任务中,RGB图提供了全局信息,而深度图提供轮廓信息更完备,表达几何结构和距离信息。因此,将RGB图像与深度图相结合用于语义分割任务是一种合理的选择。
[0005]此前的RGB

D语义分割方法大多将Depth Map作为独立于RGB图像的数据流,单独提取特征,或者将Depth图像作为RGB图像的第四个通道,该类方法无差别地对待RGB图像和Depth图像,并未考虑到RGB图和深度图信息本质上是不同的,所以广泛应用于RGB的卷积操作不适用于深度图的信息处理。
[0006]考虑到RGB图像数据和Depth图像数据之间存在跨模态数据的二义性问题,本专利技术尝试探索基于形状感知和像素卷积的跨模态特征融合方法。本专利技术通过对深度特征的局部形状以及联系进一步挖掘特征在跨模态特征融合方面的作用,帮助语义分割模型更加准确地像素分类。

技术实现思路
:
[0007]针对以上提出的问题,本专利技术提供一种基于形状感知的跨模态RGB

D语义分割方法,具体采用的技术方案如下:
[0008]1.获取训练和测试该任务的RGB

D数据集。
[0009]1.1)将NYU

Depth

V2(NYUDv2

13 and

40)数据集作为训练集,SUN RGB

D数据集作为测试集。
[0010]1.2)RGB

D图像数据集,每份数据标注了场景种类(scene category)、二维分割(2D segmentation)、三维房间布局(3D room layout)、三维物体边框(3D object box)、三维物体方向(3D object prientation)。
[0011]2.利用深度学习技术,基于形状感知和像素卷积并通过双编码器

解码器结构构
建RGB

D语义分割网络模型:
[0012]2.1)利用编码器

解码器架构作为本专利技术的模型的基本架构,用于提取RGB图像特征和因对的Depth图像特征,分别为和
[0013]2.2)本专利技术采用NYU

Depth

V2数据集预训练构建双编码器

解码器架构的网络模型。
[0014]3.基于步骤2所提取到的RGB图像特征和对应的Depth图像特征进行跨模态特征融合,并利用该融合构建一个跨模态特征融合网络用于生成多模态特征。
[0015]3.1)跨模态特征融合模块由5个层次的FCF模块整合5个层次的RGB图像特征和对应的Depth图像特征构成,更新出5个层次的特征和
[0016]3.2)第i层次的FCF模块的输入数据为和构成,并通过交互注意力机制更新出5个层次的特征和
[0017]3.3)FCF模块通过特征交叉融合生成多模态特征具体过程如下:
[0018]3.3.1)首先本专利技术构建一个交叉像素卷积模块用于获取RGB和像素差异的特征,进一步增强RGB图像特征。同时对于深度图构建形状感知卷积用于获取较为准确地局部形状边缘信息,进一步增强Depth图像特征。
[0019]3.3.2)进一步利用元素感知的矩阵相加操作融合RGB图像特征和对应的Depth图像特征,其中通过像素卷积进行判断像素是否可用,利用元素感知的矩阵相加操作确定最后计算值。然后利用softmax激活函数将融合后的特征转化为RGB特征更新权重W
r
和深度特征更新权重W
d

[0020][0021][0022]其中,conv表示卷积模块,表示元素感知的矩阵乘操作,add表示元素感知的矩阵加操作,GAP表示全局平均池化,softmax表示softmax激活函数。为像素卷积值,为RGB卷积值。
[0023]3.3.3)在获得RGB特征更新权重W
r
和深度特征更新权重W
d
之后,我们将W
r
和W
d
分别与增强之后的RGB图像特征和对应的Depth图像特征相结合,得到新的RGB特征和深度特征。
[0024]3.3.4)通过上述操作,更新出5个层次的特征和并将每个层次更新的特征对应输入下一个像素卷积模块和形状感知模块,通过多层级的操作增强特征感受野信息和高级语义信息。
[0025]4)通过交叉融合方法,融合跨模态特征,RGB图像特征和对应的Depth图像特征
最后得到融合特征
[0026][0027]其中,i∈{1,2,3,4,5}表示特征所在模型的层次,conv5表示卷积核大小为5
×
5的卷积操作,cat表示特征连接操作。
[0028]4.1)将更新后的特征经过有效特征层利用像素卷积结构特征提取:
[0029]P
i
=Conv(P,K
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(3)
[0030]D
i
=Conv(R,K
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(4)
[0031]R
i
=Conv(D
i
+P
i
,K1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(5)
[0032]其中,i∈{1,2,3,4,5}表示特征所在的层次,Conv()代表所执行的卷积操作,K
i
为各层次不同的卷积核,D
i
为RGB特征的提取结果,P
i
为像素信息的提取,并令K1为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于形状感知的跨模态RGB

D语义分割方法,其特征在于,该方法包括一下步骤:1)获取训练和测试该任务的RGB

D数据集,并定义本发明的算法目标;2)利用深度学习技术,构建基于形状感知和像素卷积并通过双编码器

解码器结构构建RGB

D语义分割网络模型;3)构建一个跨模态特征融合网络用于生成多模态特征;4)构通过交叉融合方法,融合跨模态特征,以增强多模态特征的高级语义信息;5)DeepLabV3+的解码器中,将编码器的输出上采样,使分辨率和低层级的feature一致。将特征层连接进行一次3
×
3的卷积,在经过sigmoid函数激活,得到预测的语义图P
est
;6)预测的显著图P
est
与人工标注的语义分割图P
GT
计算损失;7)对测试数据集进行测试,生成显著图P
test
,并使用评价指标进行性能评估。2.根据权利要求1所述的一种基于形状感知的跨模态RGB

D语义分割方法,其特征在于:所述步骤2)具体方法是:2.1)将NYU

Depth

V2(NYUDv2

13 and

40)数据集作为训练集,SUN RGB

D数据集作为测试集。2.2)RGB

D图像数据集,每份数据标注了场景种类(scene category)、二维分割(2D segmentation)、三维房间布局(3D room layout)、三维物体边框(3D object box)、三维物体方向(3D object prientation)。3.根据权利要求1所述的一种基于形状感知的跨模态RGB

D语义分割方法,其特征在于:所述步骤3)具体方法是:3.1)用编码器

解码器架构作为本发明的模型的基本架构,用于提取RGB图像特征和因对的Depth图像特征,分别为和3.2)本发明采用NYU

Depth

V2数据集预训练构建双编码器

解码器架构的网络模型。4....

【专利技术属性】
技术研发人员:葛斌陆一鸣夏晨星朱序卢洋郭婷
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1