【技术实现步骤摘要】
一种基于形状与语义增强的多模态图像语义分割方法
[0001]本专利技术属于图像处理
,具体涉及一种基于形状与语义增强的多模态图像语义分割方法。
技术介绍
[0002]语义分割是对图像中的每个像素打上类别标签,属于密集预测。其在很多实际应用中起到重要的作用,如自动驾驶、医学影像分析、地理信息分析等,并随着自动驾驶以及人工辅助驾驶的普及,城市道路场景的语义分割得到了更多人的关注。近年来,随着深度学习技术的长足发展,使用卷积神经网络(CNN)的语义分割在大量任务上的性能已经超过了传统的语义分割算法。但当前主流的语义分割多使用的是常规摄像头捕获的RGB图像,或者使用的是深度摄像头捕获的RGB图像和depth图像。这两种方式都容易受到光照条件的影响,即当环境的光照条件过亮或过暗时,语义分割的性能就会大大降低。为了进一步提高语义分割的性能,从而提高自动驾驶汽车的安全性,最近的研究更多的关注于使用Thermal图像进一步补充RGB图像,减少了在环境过亮或过暗时造成的信息缺失。Thermal图像可以在恶劣的光照条件下提供良好的成像信息,它可以反映温度高于绝对零度的任何物体的热辐射,从而为RGB图像补充丰富的语义信息和轮廓信息。
[0003]Sun等人提出的RTFNet网络设计了新的解码器模块来恢复特征的分辨率,此解码器块主要依据残差结构进行设计,并叠加了多个卷积层。但此结构明显地增大了模型的参数量和计算量,且难以迁移到其他的模型上。Guo等人提出的MLFNet采用多级跳转连接,灵活地融合各级特征,进一步利用了特征的上下 ...
【技术保护点】
【技术特征摘要】
1.一种基于形状与语义增强的多模态图像语义分割方法,其特征在于,包括如下步骤:步骤1、从RGB传感器和Thermal传感器中分别获取RGB图像和Thermal图像,并通过标定算法进行图像对齐,再通过裁剪统一图像大小;由此构成数据集Q,将数据集Q划分为训练集Q
train
和测试集Q
test
;步骤2、构建基于形状和语义增强的多模态图像语义分割网络模型;步骤3、对多模态图像语义分割网络模型进行模型训练,保存训练完成且性能良好的网络模型;步骤4、RGB传感器和Thermal传感器实时获取RGB图像和Thermal图像,输入当前训练完成且性能良好的网络模型,对当前图像进行语义分割。2.根据权利要求1所述基于形状与语义增强的多模态图像语义分割方法,其特征在于,多模态图像语义分割网络的解码器端分为多阶段形状监督分支和语义监督分支,其中,语义监督分支包含多个通道级语义增强解码器块CLSE
‑
D,每个CLSE
‑
D包含通道级语义增强模块CLSE
‑
M和解码器块D
j
;多阶段形状监督分支使用符号距离图进行监督来保持分割结果的几何形状信息。3.根据权利要求1所述基于形状与语义增强的多模态图像语义分割方法,其特征在于,多模态图像语义分割网络模型的具体工作流程为:步骤2.1、分别将传感器采集的RGB图像和Thermal图像数据输入到RGB编码器和Thermal编码器中,模态融合模块对编码器中的图像数据进行融合,得到特征C表示特征通道数,H表示特征的高度,W表示特征的宽度;步骤2.2、在语义监督分支,通过CLSE
‑
D解码器块得到每层解码器的输出如式(1)所示,式中,表示上一层通道级语义增强解码器块的输出;CLSE
‑
M(*)表示通道级语义增强模块;D
j
表示第j个解码器块;表示通道级语义增强解码器块的输出特征;CLSE
‑
D解码器块的具体工作过程为:在CLSE
‑
M模块中,首先将输入特征分别通过一个全局最大池化GMP和全局平均池化GAP,然后将输出结果进行对应像素相加,得到特征接着通过一个1
×
1的卷积层Conv进行降维,得到特征其中τ=16,然后通过ReLU激活函数和一个1
×
1卷积层进行升维,得到特征最后通过如式(2)所示的Sigmoid激活函数得到加权系数W
n
,具体计算如式(3)所示;将得到的W
n
与输入特征进行加权相乘并相加得到如式(4)所示;最后通过原始网络的解码器块D
j
得到CLSE
‑
D的输出特征如式(5)所示;其中,x表示特征的每个像素值;
其中,表示逐个元素相加;其中,表示逐个元素相乘;步骤2.3、在多阶段形状监督分支,分别对语义监督分支的多阶段解码特征进行深度监督;首先将特...
【专利技术属性】
技术研发人员:单彩峰,杨元健,韩军功,陈宇,
申请(专利权)人:山东科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。