一种基于语义流网络的RGBD语义分割方法技术

技术编号:33733182 阅读:56 留言:0更新日期:2022-06-08 21:29
一种基于语义流网络的RGBD语义分割方法,包括:将RGB与深度图像分别输入全对齐融合网络,提取初步特征后送入模态对齐模块进行融合,经过多个模态对齐模块后保留其输出特征并将最后一个作为高层特征。之后将高层特征送入金字塔池化模块进行上下文信息提取获得特征F,将模态对齐模块中保留的对应特征与F进行流对齐操作获得新特征,经过多个流对齐模块后从最后一个流对齐模块输出的特征被输入进最终的卷积层进行逐像素分类,获得最终语义分割图P。本发明专利技术设计并提出了全对齐融合网络,解决了目前语义分割问题中由于特征信息不对齐造成的类混淆、对象混淆等问题,实现了相似像素之间轮廓的区分,提高了整体语义分割的精度。提高了整体语义分割的精度。提高了整体语义分割的精度。

【技术实现步骤摘要】
一种基于语义流网络的RGBD语义分割方法


[0001]本专利技术涉及一种利用深度学习技术的RGBD图像分割方法,提出全对齐的概念,以此概念为基准设计并提出了全对齐融合网络。该网络利用全对齐的概念,通过设置在不同位置的流对齐模块使不同模态的特征信息以及高低层信息全程保持对齐状态,减少了语义特征流动过程中的损失。同时利用语义流与注意力机制将Depth,即深度数据与RGB特征进行高效地融合,提高网络的特征提取能力。该网络解决了目前语义分割问题中由于特征信息不对齐造成的类混淆、对象混淆等问题,实现了相似像素之间轮廓的区分,提高了整体语义分割的精度。

技术介绍

[0002]图像分割指的是将一张图片根据灰度、彩色、空间纹理、几何形状等特征分割成若干具有相似性质的区域的过程,是计算机视觉领域的一个重要研究方向。传统的图像分割方法大致分为几类:利用图像的灰度特征来计算一个或者多个灰度阈值,并将像素值与阈值比较并分类的阈值分割。主要方法有固定阈值分割法、直方图双峰法、均值分割法等等;通过边缘灰度值的突变来判断对象边缘从而进行分割的边缘分割,主要方法有Canny边本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语义流网络的RGBD语义分割方法,包括以下步骤:步骤1、将RGB图像R0与深度图像D0分别输入全对齐融合网络,提取初步特征后送入模态对齐模块进行融合;步骤2、模态对齐模块内部分为流对齐模块和注意力融合模块,首先在流对齐模块中进行流对齐操作得到对齐特征R
w
和D
w
;步骤3、将R
w
和D
w
送入注意力融合模块进行融合获得模块特征F
e1
并存储;步骤4、之后将F
e1
输入网络主干与原始特征相加获得特征R
″1与D
″1并将二者送入后续3个模态对齐模块,重复进行步骤2、步骤3的操作,获得3个模态对齐模块的对应特征F
e2
、F
e3
、F
e4
,并将从最后一个模态对齐模块输出的F
e4
作为最终高层语义特征F
h
;步骤5、解码器部分,将F
h
送入金字塔池化模块进行上下文信息提取获得特征F
d1
;步骤6、将编码器部分保留的特征F
e3
与特征F
e1
进行流对齐操作获得特征F
d2
;步骤7、将与步骤6相同的方式迭代两次,即将编码器部分保留的特征F
e2
与特征F
d2
进行流对齐操作,获得特征F
d3
;将编码器部分保留的特征F
e1
与特征F
d3
进行流对齐操作,获得特征F
d4
;解码器末尾从最后一个流对齐模块输出的F
d4
被输入进最终的卷积层进行逐像素分类,获得最终语义分割图P。2.如权利要求1所述的一种基于语义流网络的RGBD语义分割方法,其特征在于:所述步骤1中,全对齐融合网络延续了FCN的框架,分为编码器和解码器;其中编码器由一个网络主干和4个模态对齐模块组成;而网络主干内部由2个残差网络ResNet101组成;两个残差网络ResNet101以平行的方式排列,分别接收RGB和深度图像,因此被称为双路网络;RGB与深度图像被送入双路网络中,经过卷积、激活函数、池化层得到两个特征R1与D1;R1与D1分别代表RGB和深度图像经过初步处理获得的初级语义特征,拥有较高的分辨率,但是语义信息较少;将这两者送入模态对齐模块融合以便更好地提取特征。3.如权利要求1所述的一种基于语义流网络的RGBD语义分割方法,其特征在于:所述步骤2中,模态对齐模块被分为两个部分,流对齐模块与注意力融合模块;特征的传播是先经过流对齐模块,再输入进注意力融合模块;在流对齐模块中,对于特征图R1、D1,记其形状分别为(C
R
,H,W),(C
D
,H,W);其中H,W分别代表特征图的高度和宽度,C
R
、C
D
分别代表特征图R1、D1的特征通道数;将两个特征图用1x1的卷积层进行处理,将两者的通道数变为相同的通道数C;具体公式表示为:数C;具体公式表示为:其中Conv代表卷积层的卷积操作,指特征空间,利用卷积操作处理R1、D1得到特征图R
′1和D
′1;随后将两者利用通道拼接操作拼接,送入流提取层提取到语义流信息X
flow
;此处的流提取层是一个卷积层,输出通道数为2,分别代表X、Y方向上像素点的偏移量;其中代表通道拼接操作;语义流信息X
flow
包含了R
′1与D
′1的偏移量信息,属于两者的共有特征;将R
′1与D
′1分别与X
flow
进行流对齐,可以让两者利用偏移量将原本的像素点映射至同一位置,使各自的独有特征在语义流信息的共有特征下充分暴露出来;而RGB与深度图
像的独有特征是高度互补的,在此基础上进行融合可以更高效地提取图像特征;流对齐方式采用了Warp操作;Warp操作是一种被称为扭曲的图像处理技术,通过改变图像像素点的位置来对图像进行修改;基本的2D图像Warp操作包括平移、旋转、仿射变换等等;在本方法中,由于我们获得的语义流信息X
flow
包含了像素点在X、Y方向上的偏移量,因此可以通过语义流信息的偏移量将对应位置的像素值填充到指定位置从而完成Warp操作使多模态之间的像素对齐,获得对齐后的特征R
w
,D
w
,即R
w
=Warp(R
′1,X
flow
)
ꢀꢀꢀꢀꢀ
(4)D
w
=Wa...

【专利技术属性】
技术研发人员:陈佳舟詹扬帆潘翔
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1