一种多尺度轻量级实时语义分割方法、系统技术方案

技术编号：38546776 阅读：11 留言：0更新日期：2023-08-22 20:55

本发明专利技术公开了一种多尺度轻量级实时语义分割方法、系统，该方法包括对互联网上公开的图像数据集进行预处理；构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络，生成编码器主干网络浅层、中间层和最深层特征图；将浅层、中间层和最深层特征图分别输入到轻量化注意力模块中，生成增强的特征图；将中间层和最深层特征图分别输入到轻量化物体上下文特征融合模块中并进行上采样操作，生成二倍增强的区域上下文信息特征图；将增强的浅层特征图和二倍增强的区域上下文信息特征图进行连接、池化、上采样操作，生成最终网络分割结果。本发明专利技术改善了传统语义分割网络模型体量过大、在算力资源有限的移动平台上平衡分割精度和实现效率的问题。精度和实现效率的问题。精度和实现效率的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种多尺度轻量级实时语义分割方法、系统

[0001]本专利技术属于电子通讯与信息工程领域，具体涉及一种多尺度轻量级实时语义分割方法、系统。

技术介绍

[0002]语义分割是深度学习中一个十分重要的领域，指的是像素级别的图像分类，将图像中的像素归于类标签，即标注出图像中每个元素所属的像素类别。在深度学习技术崛起之前，计算机视觉领域内进行语义分割还是一个难题。但伴随近些年来深度学习的不断发展，语义分割领域中涌现出许多优秀的算法和模型，这使得语义分割在例如自动驾驶、医学影像处理、人机交互、机器人技术等越来越多的领域中崭露头角。
[0003]深度学习中的语义分割方法可以大致分为两类，一类是从基于滑动窗口的语义分割模型到基于候选区域的语义分割模型，另一种是基于编码器
‑
解码器结构的语义分割模型。采用滑动窗口的语义分割模型是通过采用滑窗的方式，把以每个像素点为中心的小图像块输入到CNN（Convolutional Neural Networks, 卷积神经网络）中来预测这个像素点的语义标签，但这个方法在语义分割中需要计算图片中每个像素点滑动窗口的语义标签，参数量多，训练、预测速度慢，十分耗时。并且对于滑动窗口的大小无法给定，如果滑动窗口取值较大，那么计算量巨大，如果滑动窗口取值较小，那么缺少目标上下文信息。基于候选区域的语义分割模型代表是Mask R
‑
CNN，它在基于区域卷积神经网络Faster R
‑
CNN结构的基础上增加Mask预测分支，并且改良了ROI Poo...

【技术保护点】

【技术特征摘要】
1.一种多尺度轻量级实时语义分割方法，其特征在于，包括：S1、获取互联网上公开的图像数据集，对其进行预处理；S2、构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络，将预处理后的图片输入到该编码器主干网络中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图；S3、将编码器主干网络中间层特征图和最深层特征图分别输入轻量化注意力模块，生成增强的中间层特征图和最深层特征图，将两个增强的特征图输入轻量化物体上下文特征融合模块，生成增强的区域上下文信息特征图；S4、将编码器主干网络浅层特征图输入轻量化注意力模块，生成增强的浅层特征图，将增强的区域上下文信息特征图进行上采样操作，生成二倍增强的区域上下文信息特征图；对生成的两个特征图进行连接、池化、上采样操作，生成最终网络分割结果。2.根据权利要求1所述的多尺度轻量级实时语义分割方法，其特征在于，步骤S1中，对训练集图像进行预处理的具体内容为：S101、从互联网的公开数据源上获取图像数据集；S102、利用随机缩放和随机裁剪方法对图像数据集中的图片进行图像增强处理；S103、将增强处理后的图像调整为W
×
H尺寸，其中W表示图像的宽，H表示图像的高。3.根据权利要求1所述的多尺度轻量级实时语义分割方法，其特征在于，步骤S2中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图的具体内容为：S201、基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络的构建：下采样模块中，使用并联的步长为2的3
×
3卷积层与2
×
2最大池化层；轻量化可分离非对称残差模块由两个低维分支构成，每个分支都有一半的输入通道；其处理图像的内容为：对输入的特征图进行通道拆解操作，在左分支上使用3
×
1和1
×
3的1D分解卷积进行特征提取，在右分支上利用带有扩张率3
×
1和1
×
3的1D分解卷积进行特征提取，将两个分支连接，执行1
×
1逐点卷积恢复通道的数量，再进行通道洗牌操作，具体计算公式为：算公式为：；其中，x
t
表示网络输入值，x
t+1
表示网络输出值，W
t
表示权重，表示激活函数，F()表示对应系数相乘的函数；编码器主干网络由一个下采样模块、三个轻量化可分离非对称残差模块、一个下采样模块、两个轻量化可分离非对称残差模块、一个下采样模块、八个轻量化可分离非对称残差模块堆叠而成；其中，一个下采样模块和三个轻量化可分离非对称残差模块属于编码器主干网络浅层，一个下采样模块和两个轻量化可分离非对称残差模块属于编码器主干网络中间层，一个下采样模块和八个轻量化可分离非对称残差模块属于编码器主干网络最深层；S202、将尺寸为W
×
H的预处理的图像输入到下采样模块中进行下采样操作，得到尺寸
为W/2
×
H/2的特征图，再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取，得到编码器主干网络浅层特征图，其特征映射表示为：；其中，F1表示大小为W/2
×
H/2的特征图，表示轻量化可分离非对称残差模块，表示下采样模块，表示多通道输入；S203、将尺寸为W/2
×
H/2编码器主干网络浅层特征图输入到下采样模块中进行下采样操作，得到尺寸为W/4
×
H/4的特征图，再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取，得到编码器主干网络中间层特征图，其特征映射表示为：；其中，F2表示大小为W/4
×
H/4的特征图；S204、将尺寸为W/4
×
H/4编码器主干网络中间层特征图输入到下采样模块中进行下采样操作，得到尺寸为W/8
×
H/8的特征图，再将其输入到八个扩张率分别为1、2、5、9、2、5、13、17轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取，得到编码器主干网络最深层特征图，其特征映射表示为：；其中，F3表示大小为W/8
×
H/8的特征图，表示轻量化可分离非对称残差模块堆叠8次。4.根据权利要求1所述的多尺度轻量级实时语义分割方法，其特征在于，步骤S3中，生成增强的区域上下文信息特征图的具体步骤为：S301、将编码器主干网络中间层特征图输入到轻量化注意力模块中，分别进行空间维度上的全局最大池化和全局平均池化操作，生成两个维数为C
×1×
1的空间信息描述特征图，使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息，将卷积后的两个空间信息描述特征图按元素相加，通过Sigmoid函数运算，生成通道注意力图，具体公式为：；；其中，M
C
表示通道注意力图，F表示输入的特征图，表示Sigmoid函数，表示卷积核大小为K的一维卷积操作，C表示输入特征图通道数，表示在空间维度上的均值池化特征，表示在空间维度上的最大池化特征，表示取最接近t的奇数；S302、将通道注意力图与编码器主干网络中间层特征图进行基...

【专利技术属性】
技术研发人员：陈苏婷，韩光勋，胡斌武，杨宁，薄业雯，裴加明，孙俊，王茹慧，刘涛，
申请(专利权)人：南京中网卫星通信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人