一种基于多尺度结构改进DeeplabV3+网络的语义分割方法技术

技术编号:38890548 阅读:15 留言:0更新日期:2023-09-22 14:15
本发明专利技术提供一种基于多尺度结构改进DeeplabV3+网络的语义分割方法,属于图像分割领域,该方法以DeeplabV3+为基础模型,针对无法充分利用浅层特征的缺陷,在编码器部分,将原始骨干网络Resnet50输出深层特征后接入金字塔池化模块和特征金字塔模块,在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。调整空洞空间卷积池化金字塔的膨胀系数,避免在处理细节和小尺度特征时的性能下降。在PASCAL VOC2012数据集上进行实验证明该方法的有效性。由实验结果表明在测试集上mean

【技术实现步骤摘要】
一种基于多尺度结构改进DeeplabV3+网络的语义分割方法


[0001]本专利技术涉及一种基于多尺度结构改进DeeplabV3+网络的语义分割方法,属于图像处理分割


技术介绍

[0002]图像分割是机器视觉任务的一个重要基础任务,三大分割任务之一的语义分割技术是在图像分类任务上进行更进一步的分类,即在像素级别的上的分类,属于同一类的像素都要被归为一类。因此在许多实际应用中具有重要的背景意义。对于计算机来说,理解图像中的场景是一项复杂的任务。传统的图像分类只提供了对整个图像的类别判断,而语义分割可以更精细地描述图像中不同物体和区域的位置和形状。通过将图像分割成语义上一致的区域,可以更深入地理解图像中的场景结构和语义关系。同时语义分割可以帮助计算机准确地识别和定位图像中的不同对象。传统的对象识别方法往往只提取对象的整体特征,而语义分割提供了对每个像素的详细分类信息,从而能够更精确地定位和识别对象。这对于许多应用领域,如自动驾驶、机器人导航和安防监控等都具有重要意义。
[0003]近年来随着深度学习的快速崛起,传统语义分割算法已经无法满足需求,FCN成为了深度学习应用于语义分割的领头人,随后U

Net、PSPNet、Deeplab系列相继出现,越来越多的深度学习下的语义分割模型占据主导地位。与此同时语义分割的研究离不开大规模的语义标注数据集。近年来,一些大型数据集如PASCAL VOC、COCO、ADE20K等被广泛用于语义分割的训练和评估。此外,为了提高分割的精度和效果,还涌现出一些细粒度的标注数据集,如Cityscapes、Mapillary Vistas等,它们提供了更详细的语义标注,能够更准确地刻画场景中的细节。
[0004]现有的语义分割网络方法仍存在以下弊端:
[0005]1.在遮挡、光照不平衡等复杂环境下,物体边缘的细节信息丢失导致边界分割效果大大降低。
[0006]2.浅层信息未能充分利用使得整体分割精度达不到预期效果。

技术实现思路

[0007]分割效果较差和整体分割精度不高的问题。
[0008]为了实现上述目标,本专利技术的技术方案如下:
[0009]一种基于多尺度结构改进DeeplabV3+网络的语义分割方法,步骤如下:
[0010]步骤1、搭建DeeplabV3+模型,选取Resnet50作为骨干特征网络,加入多尺度融合模块,调整空洞空间卷积池化金字塔的膨胀系数;
[0011]步骤2、获取常用的图像分割数据集,对训练集和验证集进行比例分配;
[0012]步骤3、利用图像增强技术,对训练集数据进行增强处理,以丰富数据内容;
[0013]步骤4、调整训练参数,进行实验训练,将实验数据与其他骨干网络进行对比,得出结论。
[0014]其中步骤1搭建模型具体包括以下步骤:
[0015]步骤1.1、构建DeeplabvV3+神经网络,选取Resnet50作为骨干网络,用于提取图像的特征;
[0016]步骤1.2、将深层特征分别送入空洞空间卷积池化金字塔模块和金字塔池化模块;
[0017]步骤1.3、将金字塔池化模块得到的特征图不断上采样与Resnet50的每一层进行融合得到特征金字塔,最后一层的特征图即为“low

level feature”;
[0018]步骤1.4、将步骤1.2得到的深层次的特征图经过空洞空间卷积池化金字塔模块后中,经历三个不同速率的膨胀卷积、一个1*1标准卷积和一个平均池化层后,进行融合,再通过得到的特征图降维处理后上采样与步骤1.3得到的“low

level feature”拼接和卷积操作得到最终特征,输出至结果预测模块可得到最终语义分割图。
[0019]其中步骤3数据增强中具体包括以下步骤:
[0020]步骤3.1、对原始图像计算均值和方差并进行归一化,再进行随机裁剪;
[0021]步骤3.2、设置50%概率,在水平或者垂直方向翻转图像。
[0022]其中步骤4实验过程中具体包括以下步骤:
[0023]步骤4.1、调整训练网络超参数,如学习率、权重衰减和迭代次数等。在训练过程中记录结果和保存最优的预训练权重参数;
[0024]步骤4.2、在原始的DeeplabV3+的算法中,更换不同的骨干网络,将超参数调整与步骤4.1中相同,进行多次实验,记录训练结果和保存最优的预训练权重参数;
[0025]步骤4.3、将得到的数据在同一网格中进行指标对比;
[0026]步骤4.4、通过预训练权重可视化测试结果。
[0027]与现有技术对比,本专利技术具有以下明显优势:
[0028]提出的多尺度融合策略可以更好的提取目标边缘信息和内容信息。
[0029]该方法以DeeplabV3+为主体,在编码器部分,选择在骨干网络在Resnet50的基础上,加入特征金字塔模块和金字塔池化模块,调整了空洞空间卷积池化金字塔模块中的膨胀系数。最后在PASCAL VOC2012数据集上进行实验证明方法的有效性。由实验结果表明,该方法在验证集上的mean_IoU达到71.79%,比原始精度提高1%,取得了很好的分割结果。
附图说明
[0030]下面结合附图和实施例对本专利技术进一步说明。
[0031]图1为本专利技术实施例构建的基于多尺度结构改进的DeeplabV3+语义分割网络图
[0032]图2为本专利技术实施例基于多尺度结构改进的DeeplabV3+模型测试结果图。
具体实施方式
[0033]为了使本专利技术的目的以及技术方案更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。以下实施例仅用于更加清楚地说明本专利技术的技术方案,并不局限于本专利技术。
[0034]本专利技术的实验是在Ubuntu20环境下进行,基于Pytorch开源深度学习框架并使用NVIDIA GTX2080Ti显卡加速。
[0035]如图1所示,本专利技术实施例提供的基于多尺度DeeplabV3+网络的语义分割方法包
括如下步骤:
[0036]S1,搭建DeeplabV3+模型;
[0037]本实施例中所用的骨干网络为Resnet50,用于提取图像的特征;
[0038]当输入图像经过Resnet50网络后,将最后一层的特征图分别输入空洞空间卷积池化金字塔模块和金字塔池化模块;
[0039]在金字塔池化模块中对原始特征图进行不同尺度的池化操作,得到4个不同尺寸的特征图。对得到的特征图进行上采样操作,恢复至原始特征图大小,最后在通道维度上进行拼接,得到最终的复合特征图;将复合特征图不断上采样与Resnet50对应维度的特征图进行拼接,输出最后一层的特征图即为“low

level feature”;
[0040]在空洞空间卷积池化金字塔模块中,对原始特征图分别进行膨胀系数为4,8,12的膨胀卷积本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度结构改进DeeplabV3+网络的语义分割方法,其特征在于,包括以下步骤:步骤1、搭建DeeplabV3+模型,选取Resnet50作为骨干特征网络,加入多尺度融合模块,调整空洞空间卷积池化金字塔的膨胀系数;步骤2、获取常用的图像分割数据集,对训练集和验证集进行比例分配;步骤3、步骤3、利用图像增强技术,对训练集数据进行增强处理,以丰富数据内容;步骤4、调整训练参数,进行实验训练,将实验数据与其他骨干网络进行对比,得出结论。2.根据权利要求1所述的基于多尺度结构改进DeeplabV3+网络的语义分割方法,其特征在于,步骤1具体包括了以下步骤:步骤1.1、构建DeeplabV3+神经网络,选取Resnet50作为骨干网络;步骤1.2、将深层特征分别送入空洞空间卷积池化金字塔模块和金字塔池化模块;步骤1.3、将金字塔池化模块得到的特征图不断上采样与Resnet50的每一层进行融合得到特征金字塔,最后一层的特征图即为“low

levelfeature”;步骤1.4、将步骤1.2得到的深层次的特征图经过空洞空间卷积池化金字塔模块中,对原始特征图分别进行膨胀系数为4,8...

【专利技术属性】
技术研发人员:黄品高黄方沂白雁力党选举莫太平叶懋陈震华
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1