一种基于形状与语义增强的多模态图像语义分割方法技术

技术编号:36541430 阅读:18 留言:0更新日期:2023-02-01 16:41
本发明专利技术公开了一种基于形状与语义增强的多模态图像语义分割方法,属于图像处理技术领域,包括如下步骤:从可见光传感器和热红外传感器中分别获取RGB图像和Thermal图像,并通过算法进行图像对齐,再统一图像大小,构建数据集;构建基于形状和语义增强的多模态图像语义分割网络模型;对多模态图像语义分割网络模型进行模型训练,保存训练完成且性能良好的网络模型;RGB传感器和Thermal传感器实时获取RGB图像和Thermal图像,输入当前训练完成且性能良好的网络模型,对当前图像进行语义分割。本发明专利技术具有即插即用的特性,可以和现有的语义分割网络结合,有效提高图像分割性能,可以推广到自动驾驶、医学影像分析等应用场景,预期创造可观的经济价值。造可观的经济价值。造可观的经济价值。

【技术实现步骤摘要】
一种基于形状与语义增强的多模态图像语义分割方法


[0001]本专利技术属于图像处理
,具体涉及一种基于形状与语义增强的多模态图像语义分割方法。

技术介绍

[0002]语义分割是对图像中的每个像素打上类别标签,属于密集预测。其在很多实际应用中起到重要的作用,如自动驾驶、医学影像分析、地理信息分析等,并随着自动驾驶以及人工辅助驾驶的普及,城市道路场景的语义分割得到了更多人的关注。近年来,随着深度学习技术的长足发展,使用卷积神经网络(CNN)的语义分割在大量任务上的性能已经超过了传统的语义分割算法。但当前主流的语义分割多使用的是常规摄像头捕获的RGB图像,或者使用的是深度摄像头捕获的RGB图像和depth图像。这两种方式都容易受到光照条件的影响,即当环境的光照条件过亮或过暗时,语义分割的性能就会大大降低。为了进一步提高语义分割的性能,从而提高自动驾驶汽车的安全性,最近的研究更多的关注于使用Thermal图像进一步补充RGB图像,减少了在环境过亮或过暗时造成的信息缺失。Thermal图像可以在恶劣的光照条件下提供良好的成像信息,它可以反映温度高于绝对零度的任何物体的热辐射,从而为RGB图像补充丰富的语义信息和轮廓信息。
[0003]Sun等人提出的RTFNet网络设计了新的解码器模块来恢复特征的分辨率,此解码器块主要依据残差结构进行设计,并叠加了多个卷积层。但此结构明显地增大了模型的参数量和计算量,且难以迁移到其他的模型上。Guo等人提出的MLFNet采用多级跳转连接,灵活地融合各级特征,进一步利用了特征的上下文信息。并对解码器各层级的特征进行通道拼接用于最后解码器块的融合。Zhou等人提出了EGFNet网络,使用先验边缘信息和语义信息对网络进行多任务深度监控,生成高质量的分割结果。其采用boundary标签对编码器每层进行深度监督,并同时使用boundary标签和semantic标签对模型进行监督。Zhou等人提出的MFFENet和GMNet都进行了类别形状与边缘的监督约束。区别在于,前者对编码器的多级特征进行融合,从而对解码器提供更为丰富的特征信息。后者对编码器的多级特征采用分级监督,将特征信息进行差异化的约束。两者都采用了形状和边缘标签对解码器进行了优化。上述部分网络没有关注分割对象的整体信息,忽略了像素间的联系,未能有效地加强语义分割对象的区域联系。虽然MFFENet和GMNet都有采用形状监督,但会对分割对象的语义信息产生较大的破坏。
[0004]而且现有的RGB

thermal(RGB

T)多模态图像语义分割网络多数集中在多模态的特征融合上,使用多种注意力机制来提高不同模态的融合性能。这些方法多数集中在编码器端,忽视了对融合后编码特征的恢复。仅有RTFNet网络和MLFNet网络明确地对解码器的解码块进行了优化,但并非能有效的应用到其他的网络上。而其他方法仅有在优化编码器的同时对解码器端采用了简单的深度监督,它们都未能对解码器提出有效的、针对性的优化策略。由于网络的编码器都采用下采样操作来提取高级特征,那么解码器就担负着恢复特征信息的重任。若解码器端未能缓解因下采样操作而造成的信息损失,这将使得分割结
的卷积层Conv进行降维,得到特征其中τ=16,然后通过ReLU激活函数和一个1
×
1卷积层进行升维,得到特征最后通过如式(2)所示的Sigmoid激活函数得到加权系数W
n
,具体计算如式(3)所示;将得到的W
n
与输入特征进行加权相乘并相加得到如式(4)所示;最后通过原始网络的解码器块D
j
得到CLSE

D的输出特征如式(5)所示;
[0020][0021]其中,x表示输入特征的每个像素值;
[0022][0023]其中,表示逐个元素相加;
[0024][0025]其中,表示逐个元素相乘;
[0026][0027]步骤2.3、在多阶段形状监督分支,分别对语义监督分支的多阶段解码特征进行深度监督;首先将特征或通过一个1
×
1卷积进行降维,得到一个单通道的特征,然后通过标准的批量归一化层BN与随机纠正线性单元激活函数RReLU;如果输入是特征还需与前一层的输出特征相加;最后通过双线性插值Up2进行两倍上采样得到如式(6)和式(7)所示,
[0028][0029][0030]进一步地,步骤3的具体过程如下:
[0031]步骤3.1、采用训练集Q
train
训练模型,学习率设置为0.01,使用指数函数降低学习率,迭代次数为200次;优化器采用0.9的Momentum,权重衰减设置为0.0005;数据增强策略和批次大小与插入的现有技术中的网络设置一致;
[0032]步骤3.2、通过训练,将语义监督分支得到的输出特征通过如式(8)所示的Softmax函数得到P
seg
,然后与语义标签Q进行加权CE损失计算,得到语义损失值L
seg
,如式(9)所示;将形状监督分支得到的输出特征通过Tanh激活函数得到P
shape
,然后与如式(10)所示的符号距离图标签S进行平均绝对误差损失值计算,得到形状损失值L
shape
,如式(11)所示;最后将计算后的两个损失值进行权重相加得到总损失值L
total
,如式(12)所示,
[0033][0034]其中,K为类别的个数,x
k
表示第k个类别的预测值,P
seg
表示语义监督分支得到的预测结果;
[0035][0036]其中,M表示输入图像的宽度,N表示输入图像的高度,m表示图像的横坐标索引,n表示图像的纵坐标索引,x
mn
表示坐标(m,n)对应的图像像素值,Q表示语义分割的语义标签,W表示每个类别对应的权重,L
seg
表示语义监督分支得到的损失值;
[0037][0038]其中,p和q分别表示语义标签中不同的像素,||*||2表示欧几里得范数,表示以目标对象的边界作为下确界,表示目标对象的边界,Ω
in
和Ω
out
分别表示目标对象的内部区域和外部区域,S(p)表示符号距离图在p点的结果;
[0039][0040]其中,P
shape
表示形状监督分支得到的预测结果,S表示符号距离图标签;
[0041]L
total
=λ1×
L
seg
+λ2×
L
shape
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0042]其中,λ1和λ2分别表示L
seg
和L
shape
的对应权重;
[0043]步骤3.3、通过迭代训练,保存结果最好的网络模型参数;
[0044]步骤3.4、通过测试集Q
te本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于形状与语义增强的多模态图像语义分割方法,其特征在于,包括如下步骤:步骤1、从RGB传感器和Thermal传感器中分别获取RGB图像和Thermal图像,并通过标定算法进行图像对齐,再通过裁剪统一图像大小;由此构成数据集Q,将数据集Q划分为训练集Q
train
和测试集Q
test
;步骤2、构建基于形状和语义增强的多模态图像语义分割网络模型;步骤3、对多模态图像语义分割网络模型进行模型训练,保存训练完成且性能良好的网络模型;步骤4、RGB传感器和Thermal传感器实时获取RGB图像和Thermal图像,输入当前训练完成且性能良好的网络模型,对当前图像进行语义分割。2.根据权利要求1所述基于形状与语义增强的多模态图像语义分割方法,其特征在于,多模态图像语义分割网络的解码器端分为多阶段形状监督分支和语义监督分支,其中,语义监督分支包含多个通道级语义增强解码器块CLSE

D,每个CLSE

D包含通道级语义增强模块CLSE

M和解码器块D
j
;多阶段形状监督分支使用符号距离图进行监督来保持分割结果的几何形状信息。3.根据权利要求1所述基于形状与语义增强的多模态图像语义分割方法,其特征在于,多模态图像语义分割网络模型的具体工作流程为:步骤2.1、分别将传感器采集的RGB图像和Thermal图像数据输入到RGB编码器和Thermal编码器中,模态融合模块对编码器中的图像数据进行融合,得到特征C表示特征通道数,H表示特征的高度,W表示特征的宽度;步骤2.2、在语义监督分支,通过CLSE

D解码器块得到每层解码器的输出如式(1)所示,式中,表示上一层通道级语义增强解码器块的输出;CLSE

M(*)表示通道级语义增强模块;D
j
表示第j个解码器块;表示通道级语义增强解码器块的输出特征;CLSE

D解码器块的具体工作过程为:在CLSE

M模块中,首先将输入特征分别通过一个全局最大池化GMP和全局平均池化GAP,然后将输出结果进行对应像素相加,得到特征接着通过一个1
×
1的卷积层Conv进行降维,得到特征其中τ=16,然后通过ReLU激活函数和一个1
×
1卷积层进行升维,得到特征最后通过如式(2)所示的Sigmoid激活函数得到加权系数W
n
,具体计算如式(3)所示;将得到的W
n
与输入特征进行加权相乘并相加得到如式(4)所示;最后通过原始网络的解码器块D
j
得到CLSE

D的输出特征如式(5)所示;其中,x表示特征的每个像素值;
其中,表示逐个元素相加;其中,表示逐个元素相乘;步骤2.3、在多阶段形状监督分支,分别对语义监督分支的多阶段解码特征进行深度监督;首先将特...

【专利技术属性】
技术研发人员:单彩峰杨元健韩军功陈宇
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1