一种基于形状感知和像素卷积的跨模态RGB-D语义分割方法技术

技术编号：38198307 阅读：12 留言：0更新日期：2023-07-21 16:36

本发明专利技术属于计算机视觉领域，提供了一种基于形状感知的跨模态RGB

全部详细技术资料下载

【技术实现步骤摘要】
一种基于形状感知和像素卷积的跨模态RGB
‑
D语义分割方法

：
[0001]本专利技术涉及计算机视觉和图像处理领域，特别地涉及一种基于形状感知和像素卷积的跨模态RGB
‑
D语义分割方法。

技术介绍
：
[0002]语义分割涉及将一些原始数据作为输入并将它们转换为具有突出显示的感兴趣区域的掩膜，其中图像中的每个像素根据其所属的对象被分配类别ID。语义分割将属于同一目标的图像部分聚集在一起解决这个问题，从而扩展了其应用领域。与其他的基于图像的任务相比，语义分割是完全不同且先进的。简而言之，在计算机视觉领域，语义分割是基于全卷积的像素分类任务。
[0003]单一的模态的RGB语义分割在面临复杂场景等挑战性因素，难以明确目标的轮廓从而精准的进行语义分割。并且难以准确和完整地从背景中准确定位出所有目标并分类。因此，为了解决这个问题，将深度(Depth)图像引入到语义分割，通过联合RGB图像和Depth图像相结合构成了RGB
‑
D进行语义分割。
[0004]由于Depth Map主要能够提供目标边缘等信息。将Depth图引入到语义分割任务中，RGB图提供了全局信息，而深度图提供轮廓信息更完备，表达几何结构和距离信息。因此，将RGB图像与深度图相结合用于语义分割任务是一种合理的选择。
[0005]此前的RGB
‑
D语义分割方法大多将Depth Map作为独立于RGB图像的数据流，单独提取特征，或者将Depth图像作为RGB图像的第四个通道，...

【技术保护点】

【技术特征摘要】
1.一种基于形状感知的跨模态RGB
‑
D语义分割方法，其特征在于，该方法包括一下步骤：1)获取训练和测试该任务的RGB
‑
D数据集，并定义本发明的算法目标；2)利用深度学习技术，构建基于形状感知和像素卷积并通过双编码器
‑
解码器结构构建RGB
‑
D语义分割网络模型；3)构建一个跨模态特征融合网络用于生成多模态特征；4)构通过交叉融合方法，融合跨模态特征，以增强多模态特征的高级语义信息；5)DeepLabV3+的解码器中，将编码器的输出上采样，使分辨率和低层级的feature一致。将特征层连接进行一次3
×
3的卷积，在经过sigmoid函数激活，得到预测的语义图P
est
；6)预测的显著图P
est
与人工标注的语义分割图P
GT
计算损失；7)对测试数据集进行测试，生成显著图P
test
，并使用评价指标进行性能评估。2.根据权利要求1所述的一种基于形状感知的跨模态RGB
‑
D语义分割方法，其特征在于：所述步骤2)具体方法是：2.1)将NYU
‑
Depth
‑
V2(NYUDv2
‑
13 and
‑
40)数据集作为训练集，SUN RGB
‑
D数据集作为测试集。2.2)RGB
‑
D图像数据集，每份数据标注了场景种类(scene category)、二维分割(2D segmentation)、三维房间布局(3D room layout)、三维物体边框(3D object box)、三维物体方向(3D object prientation)。3.根据权利要求1所述的一种基于形状感知的跨模态RGB
‑
D语义分割方法，其特征在于：所述步骤3)具体方法是：3.1)用编码器
‑
解码器架构作为本发明的模型的基本架构，用于提取RGB图像特征和因对的Depth图像特征，分别为和3.2)本发明采用NYU
‑
Depth
‑
V2数据集预训练构建双编码器
‑
解码器架构的网络模型。4....

【专利技术属性】
技术研发人员：葛斌，陆一鸣，夏晨星，朱序，卢洋，郭婷，
申请(专利权)人：安徽理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人