一种基于Transformer的跨模态融合网络的RGB-D语义分割方法技术

技术编号:38222538 阅读:7 留言:0更新日期:2023-07-25 17:54
发明专利技术名称:一种基于Transformer的跨模态融合网络的RGB

【技术实现步骤摘要】
一种基于Transformer的跨模态融合网络的RGB

D语义分割方法


[0001]本专利技术涉及图像处理领域,具体来说,本专利技术涉及一种基于不同模态的特征提取与融合的语义分割方法。

技术介绍

[0002]本部分的陈述仅仅是涉及到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]语义分割(Semantic Segmentation)是计算机视觉领域中最具挑战性的问题之一,其目的是将图像输入转换为其潜在的语义意义区域,并为许多现实世界的应用程序,实现像素级密集场景理解。随着场景理解、重构和图像处理等计算机视觉领域最热门话题的兴起,图像语义分割作为上述热门话题的基础,也受到了越来越多该领域科研人员的重视。语义分割是计算机视觉中一个基本而永恒的问题,在作为一个多标签分类问题,重点是为每一个像素分配一个类别标签,适用于各种应用(如:自动驾驶、目标分类、图像检索、人机交互手术中医疗器械的检测等)。虽然在语义分割方面有一些优秀的研究成果,但大多数研究只关注了RGB图像。由于RGB学习给出的模型具有明显的颜色和纹理,没有几何信息,因此很难区分具有相似颜色和纹理的实例。为了解决上述问题,研究者开始利用深度信息来辅助RGB语义分割。RGB和深度信息的结合,被称为RGB

D,是相当重要的方法,深度图像能够提供所需的几何信息,从而有可能丰富RGB图像的表示,并更好地区分各种物体。
[0004]现在的RGB

D语义分割方法存在两个主要的挑战:一是如何有效的从附加的Depth中提取特征;二是如何有效融合两种模态的不同特征。现在的方法主要是将深度图视作单通道图像,并且使用卷积神经网络(Convolutional Neural Network,CNN)从深度图中提取类似与RGB图的特征,然而这种方法忽略了深度传感器获得的深度并非每一个深度值都是可靠的。由于RGB图像和深度图像属于两个不同的模态,如何有效的融合两种不同模态的特征也是RGB

D语义分割的一项重要的挑战。
[0005]基于上文提到基于卷积神经网络的方法的缺点,本专利技术试图设计一个可以高效提取RGB和深度特征的框架,在特征提取的过程中明确的考虑到输入的深度值的可靠性,对深度图像进行噪声处理,可以有效的利用深度图像的特征。为了解决RGB特征和深度特征融合的问题,本专利技术设计了一个一种跨模态残差融合模块。

技术实现思路

[0006]针对以上提出的问题,本专利技术的目的是提供一种基于Transformer的跨模态融合网络的RGB

D语义分割方法,具体的采用的技术方案如下:
[0007]1.获取并整理用于训练和测试的RGB

D数据集。
[0008]1.1)对获取到的数据集(NYU Depth V2数据集,SUN RGB

D数据集)进行整理并且归纳为以下几类:RGB图像P
RGB
,深度图像P
Depth
和由人工标注的真值图像P
GT

[0009]1.2)将收到的数据集分成训练集和测试集。其中NYU Depth V2一共右1449张图片,选择795张图片作为训练集,其余的654张图片作为测试集。SUN RGB

D由10335张室内的RGB

D图片组成,将这些图像分为5285个样本的训练集和5050个样本的测试集。
[0010]2.本专利技术的网络框架由两个并行编码器(RGB Encoder和Depth Encoder)组成,分别从RGB图像和深度模式中提取特定的模式特征,然后由一个语义解码器生成最终的语义分割结果。
[0011]2.1)两个平行独立的主干分别从RGB和Depth模态输入中提取特征,并且语义解码器将各个融合模块的融合特征作为输入,生成最终的分割结果。
[0012]2.2)RGB和Depth通过两个平行的Encoder主干,将会经过四个顺序的Transformer块分别得到4个层次的RGB特征和Depth特征,分别命名为块分别得到4个层次的RGB特征和Depth特征,分别命名为和
[0013]2.3)由于深度传感器的测量可能受到物理环境的影响,一般来说现有的深度传感器在测量高度反射或高光吸收表面的深度时存在困难。传统的深度传感器,如Kinect,在深度无法精确测量时,只会返回一个空值。在这些情况下,我们将其不确定性映射表示为二进制映射U∈{0,1}
H
×
W
,其中0表示该位置没有传感器读数,1表示有效传感器读数。对于传感器测得的Depth图像,本专利技术利用双边滤波来解决深度不确定的问题,先根据像素值对要用来进行滤波的邻域做一个分割或分类,再给该点所属的类别相对较高的权重,然后进行邻域加权求和,得到最终结果。
[0014]利用二维高斯函数生成空间域核,一维高斯函数生成颜色域核:
[0015][0016]其中,(k,l)为核中心坐标,(i,j)为核内邻域坐标。σ
d
为高斯函数的标准差。
[0017][0018]其中f(i,j)代表图像在(i,j)处的灰度值,其他标识和空间域一致。
[0019]2.4)本专利技术使用PyTorch框架来实现和训练本专利技术的网络。本专利技术的编码器使用Swin

S的默认配置。
[0020]3.基于步骤2所提取到的RGB特征和深度特征和深度特征本专利技术将每个编码器块的输出,使用本专利技术提出的跨模态残差融合模块来融合RGB编码器和深度编码器之间的特征,并将两种模态的特征合并成单一的融合特征。融合模块从RGB分支和深度分支获取输入,并将更新后的特征返回到对应的下一个块的编码器,以增强两种不同模态之间特征的互补性。
[0021]3.1)首先,本专利技术设计了一个跨模态残存融合模块(Cross

Model Residual Feature Fusion Module,CRFFM),该模块首先从一个模态中选择与另一个模态互补的特征,然后在模态和水平之间进行特征融合。
[0022]3.1.1)首先,在融合模块的第一个阶段,本专利技术将RGB图像特征和深度图像特征分别输入到一个改进的坐标注意力模块(Coordinate attention,CAM)用来增强特征表示能
力。接着将RGB特征和深度特征通过一个对称的特征选择阶段,选择不同模态的互补信息进行残差链接,将经过残差连接后的特征作为下一阶段解码器的输出和和融合阶段的输入。
[0023]3.1.2)本专利技术将结果残差连接后的RGB特征和深度特征分别先通过Conv3×3卷积在进行交叉逐元素乘和最大化操作并将两者产生的特征进行连接操作,再经过一个Conv3×3卷积进行融合特征的输出。
[0024]4.通过上述步骤,本专利技术能够得到跨模态融合特征F
i
。语义解码器将各个融合模块的融合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的跨模态融合网络的RGB

D语义分割方法,其特征在于包括用于训练和测试的图像样本的采集和整理,双流编码器的构建,跨模态特征的提取和融合,深度图像处理的双边滤波模块。2.根据权利要求1所述一种基于Transformer的跨模态融合网络的RGB

D语义分割方法,其特征在于所使用的数据包括NYU V2数据集,SUN RGB

D数据集,单个样本分为RGB图像P
RGB
,深度图像P
Depth
和人工标注的语义分割图像P
GT
;训练集由NYU V2数据集中的795个样本和SUN RGB

D数据集中的5285个样本构成的样本集,剩余的样本作为测试集。3.根据权利要求1所述一种基于Transformer的跨模态融合网络的RGB

D语义分割方法,其特征在于网络框架由两个并行编码器(RGB Encoder和Depth Encoder)组成,分别从RGB图像和深度模式中提取特定的模式特征,然后由一个语义解码器生成最终的语义分割结果。3.1)两个平行独立的主干分别从RGB和Depth模态输入中提取特征,并且语义解码器将各个融合模块的融合特征作为输入,生成最终的分割结果。3.2)RGB和Depth通过两个平行的Encoder主干,将会经过四个顺序的Transformer块分别得到4个层次的RGB特征和Depth特征,分别命名为别得到4个层次的RGB特征和Depth特征,分别命名为和3.3)由于深度传感器的测量可能受到物理环境的影响,一般来说现有的深度传感器在测量高度反射或高光吸收表面的深度时存在困难。传统的深度传感器,如Kinect,在深度无法精确测量时,只会返回一个空值。在这些情况下,我们将其不确定性映射表示为二进制映射U∈{0,1}
H
×
W
,其中0表示该位置没有传感器读数,1表示有效传感器读数。对于传感器测得的Depth图像,本发明利用双边滤波来解决深度不确定的问题。利用二维高斯函数生成空间域核,一维高斯函数生成颜色域核:其中,(k,l)为核中心坐标,(i,j)为核内邻域坐标。σ
d
为高斯函数的标准差。其中f(i,j)代表图像在(i,j)处的灰度值,其他标识和空间...

【专利技术属性】
技术研发人员:葛斌朱序夏晨星张梦格卢洋陆一鸣
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1