当前位置: 首页 > 专利查询>闽江学院专利>正文

一种基于跨模态对齐融合的制造技术

技术编号:39714211 阅读:11 留言:0更新日期:2023-12-17 23:22
本发明专利技术涉及一种基于跨模态对齐融合的

【技术实现步骤摘要】
一种基于跨模态对齐融合的RGB

D语义分割方法


[0001]本专利技术属于图像语义分割
,具体涉及一种基于跨模态对齐融合的
RGB

D
语义分割方法


技术介绍

[0002]语义分割是指通过对输入图像特征的分析,为每个像素赋予不同的语义,从而实现像素级别的场景语义分析

目前,语义分割在机器人导航

自动驾驶

安防监控

智能家居

医学影像等领域都有着广泛的应用

近年来,彩色图像的像素级语义分割得到了越来越多的关注,并在分割精度等方面取得了显著进展

然而,由于彩色图像特征的特点,目前的纯彩色图像语义分割模型在某些情况下并不能总是提取出高质量的特征,例如,当两种语义信息不同的物体具有相似的颜色或纹理时,很难只通过纯彩色图像来区分它们

[0003]近来,除了利用彩色图像视觉线索中的上下文信息外,深度图像也被广泛应用作为一种互补信息,以提高结果准确性

利用同时获得的彩色图像和深度图像信息,将图像中的不同区域分配给不同的语义类别,这种语义分割方式被称作
RGB

D
语义分割
。RGB
代表红

绿

蓝三种颜色,
D
代表深度
。RGB

D
语义分割的任务是把物体按照语义含义划分成多个部分,并给每个像素打上不同的语义标签,如人



建筑物

天空等

相比于传统的
RGB
语义分割,
RGB

D
语义分割具有更好的鲁棒性和准确性,因为它可以利用深度信息来更好地分割物体的边界和纹理

[0004]现有的
RGB

D
语义分割方法可大致分为两类
。(1)
基于特定模式的
RGB

D
语义分割算法,其主要思想为是采用了一种单一的策略,主干网络从彩色图像中提取特征,同时通过特定模式从深度模态中获得有助于提取
RGB
特征的信息,这是
RGB

D
语义分割中的一种经典策略
。(2)
基于特征融合的
RGB

D
语义分割算法,它的基本思路是用两个不同的骨干网络分别从彩色图像和深度图像中提炼特征,然后把这两个特征合并成一个特征来做语义预测

[0005]现有的
RGB

D
语义分割方法丰富多样,但仍存在一些不足之处,这导致了在一定程度上,不能够很好地完成一些语义分割任务,不足列举如下:
(1)
基于特定模式的
RGB

D
语义分割算法是通过设计特定模式或者设置合理的神经网络框架从深度特征与
RGB
特征的局部特征关系和全局特征关系中找到两个模态之间的特殊联系

但由于深度特征与
RGB
特征之间的关系无法准确地通过算式进行表示,所以通过特定模式从深度模态中提取信息融入
RGB
特征信息中实现语义分割的方法难以全面地发掘出两者模态之间的特征规律
。(2)
基于特征融合的
RGB

D
语义分割算法通过部署多路网络从
RGB
模态和深度模态中进行特征提取,相较于设计特定模式,其中的融合模块可以在不同的维度中学习到两者模态之间的特征规律,使模块运用合适的参数来表述两者模态间的特征关系

但现有方法只利用了通道或空间两个维度,并未考虑其他维度,导致无法全面学习两者模态间的特征关系


技术实现思路

[0006]本专利技术的目的在于充分学习
RGB
模态和深度模态两者模态间的特征关系,提供一
种基于跨模态对齐融合的
RGB

D
语义分割方法,使用空间通道注意力机制,充分利用了空间和通道关系,使两个分支都能关注与对方的互补信息,用来解决引入多模态产生的噪声问题,并引入了语义流矫正模块,有效解决了不同模态之间对应像素不能够良好的对齐的问题,最后在解码器部分也使用了加入语义流矫正模块的解码器使深层的语义信息更有效的传递到浅层

经过实验,验证了我们所提出算法的可靠性和可行性

[0007]为实现上述目的,本专利技术的技术方案是:一种基于跨模态对齐融合的
RGB

D
语义分割方法,构建基于跨模态对齐融合的语义分割网络
CCFN
,使用两个并行骨干网络从
RGB
模态和深度模态输入中提取特征,设计一个特征校正融合模块
FCFM
来校正融合
RGB
模态和深度模态的特征,特征校正融合模块
FCFM
架设在两个相邻的骨干阶段之间,之后,两个校正融合后的特征参与最终的语义预测

[0008]在本专利技术一实施例中,所述骨干网络使用
ResNet
系列

[0009]在本专利技术一实施例中,所述特征校正融合模块
FCFM
包括特征矫正模块
FCM
和特征融合模块
FFM
两个部分;其中特征矫正模块
FCM
负责矫正
RGB
模态与深度模态之间对应特征像素位置和过滤模态中的噪声信息,特征融合模块
FFM
将属于同一层次的两个模块特征融合成为一个单一的特征图,然后利用解码器将不同层次的融合特征映射转换为最终的语义映射

[0010]在本专利技术一实施例中,所述解码器采用对齐特征金字塔解码器,对齐特征金字塔解码器从编码器的各个阶段提取特征图,然后用对齐特征金字塔来完成场景解析;具体来说,对齐特征金字塔是用流对齐模块代替了特征金字塔自顶向下路径中的双线性上采样而生成的,高层特征映射通过逐元素加法对齐并逐步融合到低层中,对于语义分割任务,对齐特征金字塔解码器还将所有特征上采样到相同的分辨率即输入图像的
1/4
,并沿着通道维度拼接在一起进行预测,对齐特征金字塔解码器还使用流对齐模块替换上采样操作

[0011]在本专利技术一实施例中,对于深度模态分支的输入,使用深度图像的
HHA
编码方法,把深度图像转换成三个通道,第一通道为左右视差

第二通道为地面高度

第三通道为表面法线与重力方向的夹角<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于跨模态对齐融合的
RGB

D
语义分割方法,其特征在于,构建基于跨模态对齐融合的语义分割网络
CCFN
,使用两个并行骨干网络从
RGB
模态和深度模态输入中提取特征,设计一个特征校正融合模块
FCFM
来校正融合
RGB
模态和深度模态的特征,特征校正融合模块
FCFM
架设在两个相邻的骨干阶段之间,之后,两个校正融合后的特征参与最终的语义预测
。2.
根据权利要求1所述的一种基于跨模态对齐融合的
RGB

D
语义分割方法,其特征在于,所述骨干网络使用
ResNet
系列
。3.
根据权利要求1所述的一种基于跨模态对齐融合的
RGB

D
语义分割方法,其特征在于,所述特征校正融合模块
FCFM
包括特征矫正模块
FCM
和特征融合模块
FFM
两个部分;其中特征矫正模块
FCM
负责矫正
RGB
模态与深度模态之间对应特征像素位置和过滤模态中的噪声信息,特征融合模块
FFM
将属于同一层次的两个模块特征融合成为一个单一的特征图,然后利用解码器将不同层次的融合特征映射转换为最终的语义映射
。4.
根据权利要求3所述的一种基于跨模态对齐融合的
RGB

D
语义分割方法,其特征在于,所述解码器采用对齐特征金字塔解码器,对齐特征金字塔解码器从编码器的各个阶段提取特征图,然后用对齐特征金字塔来完成场景解析;具体来说,对齐特征金字塔是用流对齐模块代替了特征金字塔自顶向下路径中的双线性上采样而生成的,高层特征映射通过逐元素加法对齐并逐步融合到低层中,对于语义分割任务,对齐特征金字塔解码器还将所有特征上采样到相同的分辨率即输入图像的
1/4
,并沿着通道维度拼接在一起进行预测,对齐特征金字塔解码器还使用流对齐模块替换上采样操作
。5.
根据权利要求1所述的一种基于跨模态对齐融合的
RGB

D
语义分割方法,其特征在于,对于深度模态分支的输入,使用深度图像的
HHA
编码方法,把深度图像转换成三个通道,第一通道为左右视差

第二通道为地面高度

第三通道为表面法线与重力方向的夹角
。6.
根据权利要求3所述的一种基于跨模态对齐融合的
RGB

D
语义分割方法,其特征在于,所述特征矫正模块
FCM
具体实现如下:
(1)
语义流特征矫正基于语义流的概念提出一种基于跨模态语义流的矫正模块,实现
RGB
模态和深度模态之间对应特征像素位置的准确对齐,设计一种二路对齐的语义流指导子网络,即双路语义流矫正模块
DFCM
,其是在特征对齐模块
FCM
内构建的,双路语义流矫正模块
DFCM
中输入为二路骨干网络每一阶段输出的
RGB
特征图与
HHA
特征图,对于给定的两个具有相同通道数相同尺寸的特征图
F
RGB

F
HHA
,将二者沿着通道方向拼接在一起,并将拼接后的特征图作为子网络的输入,该子网络分为两路,分别包含一个卷积核大小为3×3的卷积层,子网络的输出是语义流场预测;由于
RGB
路径操作与深度路径操作一致,采用
RGB
路径进行说明,在数学上,上述步骤由式
(1)
表示:
Δ
RGB

Conv
RGB
(cat(F
RGB
,F
HHA
))(1)
式中,代表
RGB
子网络语义流场的预测结果,
cat(
·
)
表示沿着通道方向的拼接操作,而
Conv
RGB
(
·
)
是卷积核大小为3×3的卷积层;深度路径操作中
Δ
HHA
计算方式类似;在计算
Δ
RGB

Δ
HHA
之后,对于
RGB
路径,将空间网格上的每个位置
p
RGB
通过加法运算映
射为点
p'
RGB
,由于待扭曲的特征
F
RGB
与流场之间不存在分辨率差距,因此
p'
RGB
由式
(2)
表示:
p'
RGB

p
RGB
+
Δ
RGB
(p
RGB
)(2)
式中,
p'
RGB
代表
p
RGB
加上位移
Δ
RGB
(p
RGB
)
后代表的位置;深度路径操作中计算方式同
RGB
路径操作类似;
(2)
通道空间特征矫正引入一种通道空间特征矫正,学习全局矫正的通道间编码信息和空间坐标信息,通道空间注意力机制采用协调注意力模块,该模块利用坐标信息在通道注意力机制的基础上增加一种新的坐标注意力机制,协调注意力模块同时学习全局校正的全局权值和空间局部校正的局部权值,在通道和空间两个维度,实现
RGB
模态与深度模态的特征矫正;协调注意力模块具体操作分为信息嵌入和权值图生成2个步骤,经过语义流特征矫正后的
RGB
特征图
RGB
flowed

HHA
特征图
HHA
flowed
沿着通道方向拼接后嵌入至协调注意力模块中生成对应的权值图,具体操作如下:
1)
信息嵌入对于给定的输入使用不同的两种池化内核
(H,1)

(1,W)
,其中
H

W
分别表示输入的特征图的高度和宽度,池化内核
(H,1)
对输入在垂直轴上的编码进行处理,池化内核
(1,W)
对输入在水平轴上的编码进行处理,第
c
个通道在高度
h
处的输出由式
(3)
表示:同样,宽度为
w
的第
c
个通道的输出由式
(4)
表示:上述两个变换的作用是,把特征沿着不同的方向集中起来,得到一对能够认知方位的特征图和
2)
权值图生成对于信息嵌入所生成的聚合特征图,首先沿空间维度拼接他们...

【专利技术属性】
技术研发人员:李佐勇骆霖轩刘伟霞赖桃桃
申请(专利权)人:闽江学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1