基于双通道变压器交叉融合的RGB-D语义分割方法技术

技术编号：41355439 阅读：4 留言：0更新日期：2024-05-20 10:07

本发明专利技术涉及计算机视觉和深度学习技术领域，公开了基于双通道变压器交叉融合的RGB‑D语义分割方法，包括采集RGB图像和深度图像，在计算机中利用相机参数将深度图像转化为三通道的HHA编码图像，从而获得需要进行语义分割的RGB图像和对应的HHA编码图像，然后将RGB图像和HHA编码图像进行缩放固定尺寸后输入基于双通道变压器交叉融合的RGB‑D语义分割模型中获得分割结果。通过本发明专利技术，可以在使用双通道编解码器实现语义分割时，避免两个编码器在下采样期间特征融合不充分和上采样在传递融合特征时细粒度细节丢失的问题，增强了图像特征的表达能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉和深度学习，具体是涉及基于双通道变压器交叉融合的rgb-d语义分割方法。

技术介绍

1、图像语义分割技术已经成为计算机视觉领域的重要研究方向，其目标是精确理解图像场景与内容。语义分割对图像中的每一个像素点进行分类，确定每个点的类别(如属于背景、边缘或身体等)，因此语义分割是从像素级别来理解图像的。目前语义分割技术发展的比较成熟，在自动驾驶、医学图像分割、土地覆盖分类等领域有着广泛的应用需求。当对室内场景进行分析时，仅依赖于rgb图像可能难以得到精确的分割结果，而利用深度信息可以对语义信息进行补充。普通的rgb图像可以提供纹理和颜色，而深度图可以提供几何轮廓信息以及空间结构位置信息。现有的编解码器实现语义分割方法有两种：一是使用两个编码器分别从rgb图像和深度图中提取特征，并在降采样期间进行融合，但是，通过这种方法提取的特征可能不会完全集成。二是在编码器分支提取特征后，在上采样时直接融合两个特征，但它忽略了过程中每个特征对结果的贡献。因此需要对采用编码器实现像素语义分割的现有技术进行改进。

技术实现思路

1、本专利技术要解决的技术问题是提供基于双通道变压器交叉融合的rgb-d语义分割方法，用以在使用双通道编解码器实现语义分割时，避免了在下采样期间特征融合不充分，上采样在传递融合特征时细粒度细节丢失的问题。

2、为了解决上述技术问题，本专利技术提供了基于双通道变压器交叉融合的rgb-d语义分割方法，包括采集rgb图像和深度图像，在计算机中利用相机参数

3、作为本专利技术的基于双通道变压器交叉融合的rgb-d语义分割方法的改进：

4、所述基于双通道变压器交叉融合的rgb-d语义分割模型基于transformer模型，编码器包括双流主干网络和多级融合模块，解码器部分采用多层聚合解码器模块；双流主干网络包括并行的rgb分支和深度分支，rgb分支和深度分支均包括四个transformer层，每个transformer层下采样后分别提取的rgb特征和深度特征传入通道注意交叉融合模块进行融合后，再通过深度增强rgb模块作为rgb分支的下一个transformer层的输入，同时将每一层的通道注意交叉融合模块输出的特征传入多层聚合解码器模块中。

5、作为本专利技术的基于双通道变压器交叉融合的rgb-d语义分割方法的进一步改进：

6、所述通道注意交叉融合模块的操作为：

7、

8、

9、

10、其中，i＝1,2,3,4为编码器中transformer层的层数，和分别为第i个transformer层的输出颜色特征和深度特征，fi为通道注意交叉融合模块输出的融合特征。

11、作为本专利技术的基于双通道变压器交叉融合的rgb-d语义分割方法的进一步改进：

12、所述深度增强rgb模块的操作为：

13、

14、其中，为第i个多级融合模块的rgb特征输出。

15、作为本专利技术的基于双通道变压器交叉融合的rgb-d语义分割方法的进一步改进：

16、所述多层特征聚合解码器模块的操作为：

17、将所述通道注意交叉融合特征的输出的融合特征fi分别上采样并记为f'i(f'1，f'2，f'3和f'4)，然后：

18、fsum＝conv(f'1+f'2+f'3+f'4) (5)

19、

20、其中，conv()表示1′1和3′3卷积操作，表示多层特征聚合解码器模块的输出结果。

21、作为本专利技术的基于双通道变压器交叉融合的rgb-d语义分割方法的进一步改进：

22、所述基于双通道变压器交叉融合的rgb-d语义分割模型使用nyu-dv2数据集进行训练，nyu-dv2数据集中的图像作为训练时的rgb图像使用，同时利用相机参数将每张图像转化为三通道的hha编码图像作为训练时的深度图像使用。

23、本专利技术的有益效果主要体现在：

24、1、本专利技术利用通道注意交叉融合模块实现了rgb图像和深度图像的通道融合，学习到有效的图像全局上下文信息，提高了分割的准确性。

25、2、本专利技术的深度增强rgb模块使得rgb图像在颜色信息之外引入空间相关性和几何信息，从而增强了图像特征的表达能力。

26、3、本专利技术设计的多层聚合解码器模块，能够有效挖掘图像中的上下文信息，提高了模型鲁棒性的同时还提高了模型的性能和表现力。

本文档来自技高网...

【技术保护点】

1.基于双通道变压器交叉融合的RGB-D语义分割方法，其特征在于：包括采集RGB图像和深度图像，在计算机中利用相机参数将深度图像转化为三通道的HHA编码图像，从而获得需要进行语义分割的RGB图像和对应的HHA编码图像，然后将RGB图像和HHA编码图像进行缩放固定尺寸后输入基于双通道变压器交叉融合的RGB-D语义分割模型中获得分割结果。

2.根据权利要求1所述的基于双通道变压器交叉融合的RGB-D语义分割方法，其特征在于：

3.根据权利要求2所述的基于双通道变压器交叉融合的RGB-D语义分割方法，其特征在于：

4.根据权利要求3所述的基于双通道变压器交叉融合的RGB-D语义分割方法，其特征在于：

5.根据权利要求4所述的基于双通道变压器交叉融合的RGB-D语义分割方法，其特征在于：

6.根据权利要求5所述的基于双通道变压器交叉融合的RGB-D语义分割方法，其特征在于：

【技术特征摘要】

1.基于双通道变压器交叉融合的rgb-d语义分割方法，其特征在于：包括采集rgb图像和深度图像，在计算机中利用相机参数将深度图像转化为三通道的hha编码图像，从而获得需要进行语义分割的rgb图像和对应的hha编码图像，然后将rgb图像和hha编码图像进行缩放固定尺寸后输入基于双通道变压器交叉融合的rgb-d语义分割模型中获得分割结果。

2.根据权利要求1所述的基于双通道变压器交叉融合的rgb-d语义分割...

【专利技术属性】
技术研发人员：苏雯，葛梦娇，
申请(专利权)人：浙江理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人