【技术实现步骤摘要】
一种基于跨模态对齐融合的RGB
‑
D语义分割方法
[0001]本专利技术属于图像语义分割
,具体涉及一种基于跨模态对齐融合的
RGB
‑
D
语义分割方法
。
技术介绍
[0002]语义分割是指通过对输入图像特征的分析,为每个像素赋予不同的语义,从而实现像素级别的场景语义分析
。
目前,语义分割在机器人导航
、
自动驾驶
、
安防监控
、
智能家居
、
医学影像等领域都有着广泛的应用
。
近年来,彩色图像的像素级语义分割得到了越来越多的关注,并在分割精度等方面取得了显著进展
。
然而,由于彩色图像特征的特点,目前的纯彩色图像语义分割模型在某些情况下并不能总是提取出高质量的特征,例如,当两种语义信息不同的物体具有相似的颜色或纹理时,很难只通过纯彩色图像来区分它们
。
[0003]近来,除了利用彩色图像视觉线索中的上下文信息外,深度图像也被广泛应用作为一种互补信息,以提高结果准确性
。
利用同时获得的彩色图像和深度图像信息,将图像中的不同区域分配给不同的语义类别,这种语义分割方式被称作
RGB
‑
D
语义分割
。RGB
代表红
、
绿
、
蓝三种颜色,
D
代表深度
。RGB
‑
D
语义 ...
【技术保护点】
【技术特征摘要】
1.
一种基于跨模态对齐融合的
RGB
‑
D
语义分割方法,其特征在于,构建基于跨模态对齐融合的语义分割网络
CCFN
,使用两个并行骨干网络从
RGB
模态和深度模态输入中提取特征,设计一个特征校正融合模块
FCFM
来校正融合
RGB
模态和深度模态的特征,特征校正融合模块
FCFM
架设在两个相邻的骨干阶段之间,之后,两个校正融合后的特征参与最终的语义预测
。2.
根据权利要求1所述的一种基于跨模态对齐融合的
RGB
‑
D
语义分割方法,其特征在于,所述骨干网络使用
ResNet
系列
。3.
根据权利要求1所述的一种基于跨模态对齐融合的
RGB
‑
D
语义分割方法,其特征在于,所述特征校正融合模块
FCFM
包括特征矫正模块
FCM
和特征融合模块
FFM
两个部分;其中特征矫正模块
FCM
负责矫正
RGB
模态与深度模态之间对应特征像素位置和过滤模态中的噪声信息,特征融合模块
FFM
将属于同一层次的两个模块特征融合成为一个单一的特征图,然后利用解码器将不同层次的融合特征映射转换为最终的语义映射
。4.
根据权利要求3所述的一种基于跨模态对齐融合的
RGB
‑
D
语义分割方法,其特征在于,所述解码器采用对齐特征金字塔解码器,对齐特征金字塔解码器从编码器的各个阶段提取特征图,然后用对齐特征金字塔来完成场景解析;具体来说,对齐特征金字塔是用流对齐模块代替了特征金字塔自顶向下路径中的双线性上采样而生成的,高层特征映射通过逐元素加法对齐并逐步融合到低层中,对于语义分割任务,对齐特征金字塔解码器还将所有特征上采样到相同的分辨率即输入图像的
1/4
,并沿着通道维度拼接在一起进行预测,对齐特征金字塔解码器还使用流对齐模块替换上采样操作
。5.
根据权利要求1所述的一种基于跨模态对齐融合的
RGB
‑
D
语义分割方法,其特征在于,对于深度模态分支的输入,使用深度图像的
HHA
编码方法,把深度图像转换成三个通道,第一通道为左右视差
、
第二通道为地面高度
、
第三通道为表面法线与重力方向的夹角
。6.
根据权利要求3所述的一种基于跨模态对齐融合的
RGB
‑
D
语义分割方法,其特征在于,所述特征矫正模块
FCM
具体实现如下:
(1)
语义流特征矫正基于语义流的概念提出一种基于跨模态语义流的矫正模块,实现
RGB
模态和深度模态之间对应特征像素位置的准确对齐,设计一种二路对齐的语义流指导子网络,即双路语义流矫正模块
DFCM
,其是在特征对齐模块
FCM
内构建的,双路语义流矫正模块
DFCM
中输入为二路骨干网络每一阶段输出的
RGB
特征图与
HHA
特征图,对于给定的两个具有相同通道数相同尺寸的特征图
F
RGB
和
F
HHA
,将二者沿着通道方向拼接在一起,并将拼接后的特征图作为子网络的输入,该子网络分为两路,分别包含一个卷积核大小为3×3的卷积层,子网络的输出是语义流场预测;由于
RGB
路径操作与深度路径操作一致,采用
RGB
路径进行说明,在数学上,上述步骤由式
(1)
表示:
Δ
RGB
=
Conv
RGB
(cat(F
RGB
,F
HHA
))(1)
式中,代表
RGB
子网络语义流场的预测结果,
cat(
·
)
表示沿着通道方向的拼接操作,而
Conv
RGB
(
·
)
是卷积核大小为3×3的卷积层;深度路径操作中
Δ
HHA
计算方式类似;在计算
Δ
RGB
和
Δ
HHA
之后,对于
RGB
路径,将空间网格上的每个位置
p
RGB
通过加法运算映
射为点
p'
RGB
,由于待扭曲的特征
F
RGB
与流场之间不存在分辨率差距,因此
p'
RGB
由式
(2)
表示:
p'
RGB
=
p
RGB
+
Δ
RGB
(p
RGB
)(2)
式中,
p'
RGB
代表
p
RGB
加上位移
Δ
RGB
(p
RGB
)
后代表的位置;深度路径操作中计算方式同
RGB
路径操作类似;
(2)
通道空间特征矫正引入一种通道空间特征矫正,学习全局矫正的通道间编码信息和空间坐标信息,通道空间注意力机制采用协调注意力模块,该模块利用坐标信息在通道注意力机制的基础上增加一种新的坐标注意力机制,协调注意力模块同时学习全局校正的全局权值和空间局部校正的局部权值,在通道和空间两个维度,实现
RGB
模态与深度模态的特征矫正;协调注意力模块具体操作分为信息嵌入和权值图生成2个步骤,经过语义流特征矫正后的
RGB
特征图
RGB
flowed
和
HHA
特征图
HHA
flowed
沿着通道方向拼接后嵌入至协调注意力模块中生成对应的权值图,具体操作如下:
1)
信息嵌入对于给定的输入使用不同的两种池化内核
(H,1)
和
(1,W)
,其中
H
和
W
分别表示输入的特征图的高度和宽度,池化内核
(H,1)
对输入在垂直轴上的编码进行处理,池化内核
(1,W)
对输入在水平轴上的编码进行处理,第
c
个通道在高度
h
处的输出由式
(3)
表示:同样,宽度为
w
的第
c
个通道的输出由式
(4)
表示:上述两个变换的作用是,把特征沿着不同的方向集中起来,得到一对能够认知方位的特征图和
2)
权值图生成对于信息嵌入所生成的聚合特征图,首先沿空间维度拼接他们...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。