一种基于局部和全局特征增强模块的图像语义分割方法技术

技术编号:24332330 阅读:91 留言:0更新日期:2020-05-29 20:16
本发明专利技术公开了一种基于局部和全局特征增强模块的图像语义分割方法,包括选取并制作语义分割任务所需的训练集图像和验证集图像,以及相应的标签图片。对训练集图像进行数据增强,分别对训练集图像和验证集图像中的样本图像进行标准化,对应的标签图像进行编码,设计卷积神经网络中,处理后数据作为模型的输入数据,输出多通道特征图,优化卷积神经网络参数,输入真实场景图像到参数优化后的卷积神经网络中进行语义分割,输出像素被标记后的图像。本发明专利技术为场景解析和强化学习等研究中的后续操作提供了重要的技术支持,可应用于虚拟现实,自动驾驶和人机交互等领域。

A method of image semantic segmentation based on local and global feature enhancement module

【技术实现步骤摘要】
一种基于局部和全局特征增强模块的图像语义分割方法
本专利技术涉及卷积神经网络和图像语义分割技术,尤其涉及基于卷积神经网络的增强特征的图像语义分割方法。
技术介绍
图像语义分割是计算机视觉中重要的研究课题之一,其研究结果对于其它的视觉任务有着重要的影响作用。语义分割技术目前已广泛应用于人工解析,虚拟现实,自动驾驶等领域,但在某些复杂的场景中,由于分割目标种类多且尺度多样化,小尺度目标分割精度比较低,具有相似特征的目标之间像素分类易出错。随着深度学习和机器学习的稳步发展,利用卷积神经网络学习目标特征受到了研究者们的极大追捧,出现很多采用全卷积神经网络进行像素级别分类达到语义分割效果的方法,目前基于全卷积神经网络的图像语义分割方法分为单阶段网络和两阶段网络,单阶段网络对图像进行编码后直接上采样得到输出,例如FCN,DeepLab系列,PSPNet等算法,而两阶段网络先对图像进行编码后解码得到输出,例如U-Net,SegNet,RefineNet,GCN等。图像语义分割方法研究的难点在于对小尺度目标的局部感知特征提取,以及保证目标像素类别的分类正确。
技术实现思路
本专利技术的目的为解决真实的街道场景图像的语义分割问题,为场景解析和强化学习等研究中的后续操作提供了重要的技术支持,可应用于虚拟现实,自动驾驶和人机交互等领域。为了实现上述目的,本专利技术采用的技术方案是:一种基于局部和全局特征增强模块的图像语义分割方法,包括以下步骤:1)、获取数据集,选取并制作语义分割任务所需的训练集图像和验证集图像,以及相应的标签图片。2)、对训练集图像进行数据增强,分别对训练集图像和验证集图像中的样本图像进行标准化,对应的标签图像进行编码,处理后数据作为模型的输入数据。3)、将步骤2)处理后的数据输入基于tensorflow开源深度学习框架设计的卷积神经网络中,输出多通道特征图。4)、计算卷积神经网络模型的输出结果与编码后的标签图像的损失,优化卷积神经网络参数。5)、输入真实场景图像到参数优化后的卷积神经网络中进行语义分割,输出像素被标记后的图像。本专利技术的有益效果如下:本专利技术基于卷积神经网络,专利技术一种增强局部特征和全局特征的编码器加解码器的结构,并融合浅层细节特征和深层语义特征,使得特征图信息更加多样。其中局部特征增强模块对局部特征和周围特征进行差值提取,获得了增强的局部感知特征,改善小尺度目标的分割效果。全局特征增强模块提取了上文特征图通道间的全局信息,用于对下文特征图进行全局特征增强,改善特征图间的融合,增加同语义目标分类的一致性。该模型具有稳定的分割性能,对复杂分布的街道场景目标具有很好的分割鲁棒性。附图说明图1是本专利技术的流程图;图2是Sigmoid激活函数图像;图3是局部特征增强模块图像;图4是全局特征增强模块图像;图5是街道场景图像的语义分割结果图。具体实施方式本专利技术提供一种基于局部和全局特征增强模块的图像语义分割方法,所描述的实施例仅仅是本专利技术的一部分实施例。本专利技术方法的流程如图1,图像数据经过残差阶段和局部特征增强模块构成的编码器进行特征提取,在经过全局特征增强模块和特征融合操作构成的解码器生成最终的分割图像,具体分为以下步骤:1)、获取Cityscapes数据集,选取并制作语义分割任务所需的练集图像、验证集图像样本和标签图片,用于分割模型的训练与评估。2)、对训练集图像进行数据增强,分别对训练集图像和验证集图像中的样本图像进行标准化,对应的标签图像进行编码,处理后数据作为模型的输入数据。3)、基于tensorflow开源深度学习框架设计卷积神经网络,使输出图像通道数与步骤(1)中得到的标签图像的分割目标种类一致,输出图像包含对像素类别的预测。4)、计算网络模型的输出结果与编码后的标签图像的损失,优化模型参数;5)、利用优化后的模型参数,对真实场景图像进行语义分割,输出像素被标记后的图像。街道场景图像的语义分割结果图如图5所示。具体地,步骤1)所述训练集和验证集样本图像的获取,在数据集中以步长5进行采样获取训练图像,以步长10进行采样获取验证图像,同时制作对应的标签图像,采用分割目标的颜色矩阵将RGB图像矩阵映射到单通道类别矩阵,形成灰度标签图像,其中包含19类训练类别ID。由此得到训练集和验证集的图像样本和标签。步骤2)所述操作具体为:数据增强操作包括图像的翻转,仿射变换,亮度调节。标准化采用将图像RGB像素值减去ImageNet数据集的图像RGB通道均值,标签图像编码形式采用one-hot编码。步骤3)所述卷积神经网络包括:基础网络模块,采用ResNet-50网络,并去掉最后一个池化层改用比率为2的空洞卷积。用于生成图像的浅层细节特征通道和深层语义特征通道。局部特征增强模块,作用于基础网络模块的输出,对基础网络模块输出的特征图进行常规3×3卷积提取局部特征,比率为3的空洞卷积提取粗糙的全局上下文特征,将两种卷积后的特征图做像素级别的相减,来突出图中的局部感知特征。具体如图3所示:整体的LFE模块采用比率为3,5的两种空洞卷积来实现对多尺度特征的关注。最后将LFE模块输出的所有特征图进行concatenate操作,即通道维度的特征图叠加,最后经过1×1卷积操作整合特征得到模块的输出。全局特征增强模块,如图4所示,包括全局平均池化层、1×1卷积、非线性函数(Sigmoid函数如图2所示)以及像素乘积操作。其中,全局平均池化层提取模块输入M1中每一特征通道的全局信息,经过1×1卷积和Sigmoid函数可以将线性结果做非线性映射,得到特征选择系数。并与模块的另一输入M2做乘积操作,选择M2中对应M1中各通道的具有强类别辨识力的特征。上采样特征融合模块,上采样采用双线性差值,用于重建特征图分辨率,特征融合是将重建分辨率过程中的特征图M2与经过全局增强模块的特征图M1进行像素相加的融合操作。进一步,所述Sigmoid函数和双线性差值上采样操作的公式分别为:其中x为上一层网络的输出,f(i,j)为图像矩阵中坐标(i,j)位置像素点的值,p1,p2,p3,p4为与坐标(i,j)位置像素点最邻近四个像素点的值,w1,w2,w,3w4为上述四个像素对应的权值。步骤4)计算网络模型的输出结果与编码后的标签图像的损失,优化模型参数,具体包括:(1)将步骤2)中标准化的数据输入步骤3)所述卷积神经网络进行优化训练,其中具体的超参数设置为:优化算法使用SGD,学习率为0.001,动量系数0.9;(2)训练优化的损失函数为交叉熵损失,并计算样本中每个目标类别像素出现的频率,频率倒数为权重作用于损失函数,公式如下:其中wi为第i类的权重,yi,ti分别为第i类的预测值和标签值。步骤5)中具体操作为:对网络输出的多通道特征图通过Argmax函数转换成单通道预本文档来自技高网...

【技术保护点】
1.一种基于局部和全局特征增强模块的图像语义分割方法,其特征在于,包括以下步骤:/n1)、获取数据集,选取并制作语义分割任务所需的训练集图像和验证集图像,以及相应的标签图片;/n2)、对训练集图像进行数据增强,分别对训练集图像和验证集图像中的样本图像进行标准化,对应的标签图像进行编码;/n3)、将步骤2)处理后的数据输入基于tensorflow开源深度学习框架设计的卷积神经网络中,输出多通道特征图;/n4)、计算卷积神经网络模型的输出结果与编码后的标签图像的损失,优化卷积神经网络参数;/n5)、输入真实场景图像到参数优化后的卷积神经网络中进行语义分割,输出像素被标记后的图像。/n

【技术特征摘要】
1.一种基于局部和全局特征增强模块的图像语义分割方法,其特征在于,包括以下步骤:
1)、获取数据集,选取并制作语义分割任务所需的训练集图像和验证集图像,以及相应的标签图片;
2)、对训练集图像进行数据增强,分别对训练集图像和验证集图像中的样本图像进行标准化,对应的标签图像进行编码;
3)、将步骤2)处理后的数据输入基于tensorflow开源深度学习框架设计的卷积神经网络中,输出多通道特征图;
4)、计算卷积神经网络模型的输出结果与编码后的标签图像的损失,优化卷积神经网络参数;
5)、输入真实场景图像到参数优化后的卷积神经网络中进行语义分割,输出像素被标记后的图像。


2.根据权利要求1所述基于局部和全局特征增强模块的图像语义分割方法,其特征在于:步骤1)所述训练集图像和验证集图像,在数据集中以步长5进行采样获取训练图像,以步长10进行采样获取验证图像。


3.根据权利要求1所述基于局部和全局特征增强模块的图像语义分割方法,其特征在于:步骤2)所述数据增强包括翻转、仿射变换和亮度调节。


4.根据权利要求1或3所述基于局部和全局特征增强模块的图像语义分割方法,其特征在于:步骤2)所述标准化处理为将图像RGB像素值减去ImageNet数据集的图像RGB通道均值。


5.根据权利要求1所述基于局部和全局特征增强模块的图像语义分割方法,其特征在于:步骤3)所述卷积神经网络包括:
基础网络模块,采用ResNet-50网络,并将最后一个池化层改用比率为2的空洞卷积;
局部特征增强模块,对基础网络模块输出...

【专利技术属性】
技术研发人员:陈乔松段博邻隋晓旭李金鑫王郅翔周丽刘宇张珺涵边愿愿
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1