一种基于Transformer的跨模态融合网络的RGB-D语义分割方法技术

技术编号：38222538 阅读：8 留言：0更新日期：2023-07-25 17:54

发明专利技术名称：一种基于Transformer的跨模态融合网络的RGB

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Transformer的跨模态融合网络的RGB
‑
D语义分割方法

[0001]本专利技术涉及图像处理领域，具体来说，本专利技术涉及一种基于不同模态的特征提取与融合的语义分割方法。

技术介绍

[0002]本部分的陈述仅仅是涉及到了与本专利技术相关的
技术介绍
，并不必然构成现有技术。
[0003]语义分割(Semantic Segmentation)是计算机视觉领域中最具挑战性的问题之一，其目的是将图像输入转换为其潜在的语义意义区域，并为许多现实世界的应用程序，实现像素级密集场景理解。随着场景理解、重构和图像处理等计算机视觉领域最热门话题的兴起，图像语义分割作为上述热门话题的基础，也受到了越来越多该领域科研人员的重视。语义分割是计算机视觉中一个基本而永恒的问题，在作为一个多标签分类问题，重点是为每一个像素分配一个类别标签，适用于各种应用(如：自动驾驶、目标分类、图像检索、人机交互手术中医疗器械的检测等)。虽然在语义分割方面有一些优秀的研究成果，但大多数研究只关注了RGB图像。由于RGB学习给出的模型具有明显的颜色和纹理，没有几何信息，因此很难区分具有相似颜色和纹理的实例。为了解决上述问题，研究者开始利用深度信息来辅助RGB语义分割。RGB和深度信息的结合，被称为RGB
‑
D,是相当重要的方法，深度图像能够提供所需的几何信息，从而有可能丰富RGB图像的表示，并更好地区分各种物体。
[0004]现在的RGB
‑
D语义分割方法存在两个主要的挑战：一是如...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的跨模态融合网络的RGB
‑
D语义分割方法，其特征在于包括用于训练和测试的图像样本的采集和整理，双流编码器的构建，跨模态特征的提取和融合，深度图像处理的双边滤波模块。2.根据权利要求1所述一种基于Transformer的跨模态融合网络的RGB
‑
D语义分割方法，其特征在于所使用的数据包括NYU V2数据集，SUN RGB
‑
D数据集，单个样本分为RGB图像P
RGB
，深度图像P
Depth
和人工标注的语义分割图像P
GT
；训练集由NYU V2数据集中的795个样本和SUN RGB
‑
D数据集中的5285个样本构成的样本集，剩余的样本作为测试集。3.根据权利要求1所述一种基于Transformer的跨模态融合网络的RGB
‑
D语义分割方法，其特征在于网络框架由两个并行编码器(RGB Encoder和Depth Encoder)组成，分别从RGB图像和深度模式中提取特定的模式特征，然后由一个语义解码器生成最终的语义分割结果。3.1)两个平行独立的主干分别从RGB和Depth模态输入中提取特征，并且语义解码器将各个融合模块的融合特征作为输入，生成最终的分割结果。3.2)RGB和Depth通过两个平行的Encoder主干，将会经过四个顺序的Transformer块分别得到4个层次的RGB特征和Depth特征，分别命名为别得到4个层次的RGB特征和Depth特征，分别命名为和3.3)由于深度传感器的测量可能受到物理环境的影响，一般来说现有的深度传感器在测量高度反射或高光吸收表面的深度时存在困难。传统的深度传感器，如Kinect，在深度无法精确测量时，只会返回一个空值。在这些情况下，我们将其不确定性映射表示为二进制映射U∈{0,1}
H
×
W
，其中0表示该位置没有传感器读数，1表示有效传感器读数。对于传感器测得的Depth图像，本发明利用双边滤波来解决深度不确定的问题。利用二维高斯函数生成空间域核，一维高斯函数生成颜色域核：其中，(k,l)为核中心坐标，(i,j)为核内邻域坐标。σ
d
为高斯函数的标准差。其中f(i,j)代表图像在(i,j)处的灰度值，其他标识和空间...

【专利技术属性】
技术研发人员：葛斌，朱序，夏晨星，张梦格，卢洋，陆一鸣，
申请(专利权)人：安徽理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人