一种基于制造技术

技术编号:39872189 阅读:10 留言:0更新日期:2023-12-30 12:59
本公开揭示了一种基于

【技术实现步骤摘要】
一种基于STDC网络的图像实时语义分割方法及装置


[0001]本公开属于图像处理领域,具体涉及一种基于
STDC
网络的图像实时语义分割方法及装置


技术介绍

[0002]近年来,深度卷积神经网络逐渐应用于语义分割任务,并取得了较高的分割准确度

然而,多数依赖深度卷积神经网络的算法具有较高的计算复杂度,无法满足实时分割任务的需求

[0003]现有的用于语义分割的深度卷积网络包括
SegNet、DeepLab、RefineNet

PSPNet
等,这些基于
DCNN
的方法在公共的基准数据集上能够显示出优秀的分割结果,然而这些语义分割方法大多基于复杂的主干网络,含有数千个通道,并且网络深度多达数百层

尽管这些方法可以实现较高的准确性,但准确性的提高意味着更复杂的计算操作以及更高的内存消耗,从而降低了分割速度

例如,
PSPNet
在语义分割任务中具有较高的分割准确度,但其包含大量参数,推理速度低于
1FPS
,显然,这对于需要实时操作的应用来说是不可行的,如自动驾驶

机器人等

因此,在现实场景中,如何在高分辨率图像下保持高推理速度以及高准确性是当前语义分割算法面临的关键问题


技术实现思路

[0004]针对现有技术中的不足,本公开的目的在于提供一种基于
STDC
网络的图像实时语义分割方法,本方法通过使用编码器

解码器结构,对于输入图像在获得高准确性的同时能够实现实时语义分割

[0005]为实现上述目的,本公开提供以下技术方案:
[0006]一种基于
STDC
网络的图像实时语义分割方法,包括以下步骤:
[0007]S100
:采集输入图像;
[0008]S200
:对输入图像进行数据增强;
[0009]S300
:构建基于轻量级网络
STDC
的实时语义分割模型并训练;
[0010]其中,所述模型采用编码器和解码器结构,编码器以轻量级网络
STDC
为主干网络,编码器后设置有混合池化注意力模块,用于捕获不同感受野的上下文信息;解码器中设置有基于通道注意力的特征融合模块,用于对不同层次的特征进行选择;
[0011]S400
:将数据增强后的输入图像输入训练好的模型中,以实现对输入图像进行实时语义分割

[0012]优选的,步骤
S200
中,所述对输入图像进行数据增强包括以下方法:对输入图像进行颜色抖动

随机水平翻转

随机裁剪以及随机缩放

随机裁剪的分辨率为
1024
×
512
,随机缩放的比例范围为
[0.125

1.5]。
[0013]优选的,步骤
S300
中,所述模型通过以下方法进行训练:
[0014]S301
:获取训练数据集,对数据集进行数据增强,将数据增强后的数据集划分为训
练集

验证集和测试集;
[0015]S302
:设置训练参数,利用训练集对模型进行训练,当达到预设训练次数,模型训练完成;
[0016]S303
:利用验证集对训练后的模型进行验证,在验证过程中,以每秒帧数
FPS
和平均交并比
mIoU
作为评价指标对模型进行评价,当
mIoU

71.2/74.6
,且
FPS

250.4/126.7
时,模型验证通过;
[0017]S304
:利用测试集对训练后的模型进行测试,在测试过程中,以每秒帧数和平均交并比作为评价指标对模型进行评价,当
mIoU

71.9/75.3

FPS

250.4/126.7
时,模型测试通过

[0018]本公开还提供一种基于
STDC
网络的图像实时语义分割装置,包括:
[0019]采集模块,用于采集输入图像;
[0020]数据增强模块,用于对输入图像进行数据增强;
[0021]模型构建及训练模块,用于构建基于轻量级网络
STDC
的实时语义分割模型并训练;
[0022]其中,所述模型采用编码器和解码器结构,编码器以轻量级网络
STDC
为主干网络,编码器后设置有混合池化注意力模块,用于捕获不同感受野的上下文信息;解码器中设置有基于通道注意力的特征融合模块,用于对不同层次的特征进行选择;
[0023]分割模块,用于将数据增强后的输入图像输入训练好的模型中,以实现对输入图像进行实时语义分割

[0024]优选的,所述模型构建及训练模块包括:
[0025]获取子模块,用于获取训练数据集;
[0026]数据增强子模块,用于对训练数据集进行数据增强;
[0027]划分子模块,用于将数据增强后的训练数据集划分为训练集

验证集和测试集;
[0028]训练子模块,用于利用训练集对模型进行训练;
[0029]验证子模块,用于利用验证集对训练后的模型进行验证;
[0030]测试子模块,用于利用测试集对训练后的模型进行测试

[0031]本公开还提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行如前任一所述的方法

[0032]本公开还提供一种电子设备,包括:
[0033]存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
[0034]所述处理器执行所述程序时实现如前任一所述的方法

[0035]与现有技术相比,本公开带来的有益效果为:
[0036]1、
本公开所采用的图像实时语义分割模型在推理速度和分割精度两个方面进行了综合权衡,能够实时生成高质量的分割结果;
[0037]2、
本公开所采用的图像实时语义分割模型不依赖复杂的深度卷积神经网络,而是采用了轻量级
STDC
网络构成编码器,以提取不同感受野下的多尺度特征信息;
[0038]3、
本公开通过在编码器后引入混合池注意力模块,能够利用平均池化和条带池化聚合不同类型的上下文信息,从而生成高质量的分割结果;
[0039]4、
本公开通过引入基于
Tversky
指数的损失函数,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
STDC
网络的图像实时语义分割方法,其特征在于,所述方法包括以下步骤:
S100
:采集输入图像;
S200
:对输入图像进行数据增强;
S300
:构建基于轻量级网络
STDC
的实时语义分割模型并训练;其中,所述模型采用编码器和解码器结构,编码器以轻量级网络
STDC
为主干网络,编码器后设置有混合池化注意力模块,用于捕获不同感受野的上下文信息;解码器中设置有基于通道注意力的特征融合模块,用于对不同层次的特征进行选择;
S400
:将数据增强后的输入图像输入训练好的模型中,以实现对输入图像进行实时语义分割
。2.
根据权利要求1所述的方法,其特征在于,优选的,步骤
S200
中,所述对输入图像进行数据增强包括以下方法:对输入图像进行颜色抖动

随机水平翻转

随机裁剪以及随机缩放
。3.
根据权利要求1所述的方法,其特征在于,步骤
S300
中,所述模型通过以下方法进行训练:
S301
:获取训练数据集,对数据集进行数据增强,将数据增强后的数据集划分为训练集

验证集和测试集;
S302
:设置训练参数,利用训练集对模型进行训练,当达到预设训练次数,模型训练完成;
S303
:利用验证集对训练后的模型进行验证,在验证过程中,以每秒帧数
FPS
和平均交并比
mIoU
作为评价指标对模型进行评价,当
mIoU

71.2/74.6
,且
FPS

250.4/126.7
时,模...

【专利技术属性】
技术研发人员:马素刚赵子一侯志强余旺盛蒲磊杨小宝
申请(专利权)人:西安邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1