当前位置: 首页 > 专利查询>河南大学专利>正文

一种面向城市街景的高效轻量的实时语义分割方法技术

技术编号:39427746 阅读:14 留言:0更新日期:2023-11-19 16:13
本发明专利技术属于计算机视觉及实时语义分割技术领域,公开一种面向城市街景的高效轻量的实时语义分割方法,其中提出了一种高效的轻量级的非对称残差瓶颈模块,该模块结合了扩张卷积

【技术实现步骤摘要】
一种面向城市街景的高效轻量的实时语义分割方法


[0001]本专利技术涉及计算机视觉及实时语义分割
,尤其涉及一种面向城市街景的高效轻量的实时语义分割方法


技术介绍

[0002]语义分割是计算机视觉领域中一项重要的研究工作,它的目的是将整个图像中的每个像素进行分类,将其分配给预定义的语义类别之一,例如人

建筑物

天空

交通标志等

语义分割技术具有广泛的应用领域,例如,在医疗诊断中,可以用于病灶的定位和分割;在自动驾驶中,可以用于车道线和交通标志的识别;在机器人导航中,可以用于环境感知和路径规划等

近年来,随着深度学习技术的兴起,特别是卷积神经网络
(CNN)
的成功应用,语义分割的准确性得到了显著提升,例如
BiSeNetV1、V2、PSPNet、DeepLab
系列等

[0003]尽管目前基于卷积神经网络的语义分割方法已经获得了很好的成果,但是仍然存在一些挑战和限制

大多数语义分割方法都以增加网络大小和复杂度的方式来提高语义分割精度,增加了大量的参数,这些大型网络无法完成实时
(
通常将其定义为
fps≥30)
分割任务

当前的方法存在两个缺点:网络庞大

参数冗余的复杂结构导致实时推理慢和过于轻量化的网络导致分割精度低的缺点

因此,构建一个轻量级的

高效的实时语义分割网络在分割准确性和推理速度之间达到平衡是至关重要的


技术实现思路

[0004]本专利技术针对现有城市街景分割方法精度差

推理速度慢,无法做到实时分割的问题,提出一种面向城市街景的高效轻量的实时语义分割方法,并提出了一种非对称残差瓶颈模块和特征融合模块,使网络在分割精度

模型大小和推理速度之间取得良好平衡,该方法参数量少,且语义分割的精度更高,实时推理速度更快

[0005]为了实现上述目的,本专利技术采用以下技术方案:
[0006]一种面向城市街景的高效轻量的实时语义分割方法,包括:
[0007]提取初始特征阶段:提取城市街景图像的初始特征,并使用
scSE
注意力机制对提取的初始特征进行处理,同时考虑空间信息和通道关系,能够更全面地捕捉特征图的重要信息,提升模型的表征能力的分类性能;
[0008]下采样阶段:通过下采样模块将原始输入城市街景图像和使用
scSE
注意力机制处理后的输出结果之间按照通道维度来建立连接;
[0009]特征提取阶段:将下采样模块处理后的特征图作为输入,输送到两个特征提取模块中,第一特征提取模块和第二特征提取模块由不同个数的非对称残差瓶颈模块组成,所述的非对称残差瓶颈模块由扩张卷积

深度可分离的非对称卷积

因式分解卷积

轻量化通道注意力

通道混洗单元以及残差连接组成;
[0010]特征融合阶段:将来自两个不同分支的不同分辨率的特征进行融合,其中,第一特征提取模块的输出特征图与原始图像进行拼接后的特征作为特征融合阶段的第一分支输
入,第二特征提取模块的输出特征图与原始图像进行拼接后

且经过上采样和标准卷积处理后的特征作为特征融合阶段的第二分支输入;
[0011]输出分割效果图:将特征融合后的特征图,经过双线性插值方法进行上采样,将输出结果恢复到原始输入城市街景图像的分辨率,进而对其进行预测,实现语义分割,最终输出分割效果图

[0012]进一步地,所述提取初始特征阶段中,具体使用三个3×3的标准卷积提取城市街景图像的初始特征,用于增加感受野和非线性变换,其中第一个卷积的步长设置为2,帮助模型更好地捕捉图像的初始特征

[0013]进一步地,所述下采样模块由步长为2,卷积核大小为3×3的卷积和2×2的最大池化组成,用于减小特征图的尺寸可以增加模型对输入图像中更广阔区域的信息感知能力,有助于更好地区分不同类别的目标

[0014]进一步地,所述非对称残差瓶颈块中,采用双分支的结构,将两个分支采用并联的方式进行连接,使用深度可分离卷积和扩张卷积进行组合,以增加网络的感受野,优化模型的特征提取能力

[0015]进一步地,在两个特征提取模块中,使用不同的扩张率以提取不同感受野下的多尺度信息,且均采用级联操作,将每一个特征提取模块中的第一个非对称残差瓶颈模块的输入和最后一个非对称残差瓶颈模块的输出按照通道维度进行拼接,以形成更高维度的特征图,获得更丰富的特征信息

[0016]进一步地,利用步长为2,卷积核大小为3×3的最大池化和平均池化并行使用来实现跳跃连接,通过该跳跃连接,将原始输入图像和多个深层特征之间按照通道维度建立连接,使模型同时获得全局信息和更多的局部信息,有效提高了模型对图像的理解能力

[0017]进一步地,对于第一特征提取模块的第一个非对称残差瓶颈模块,其处理过程包括:
[0018]设第一特征提取模块的第一个非对称残差瓶颈模块的输入特征图为
F
,通道数为
C
,对输入特征图进行归一化和
PReLu
非线性激活操作,得到
X
out

[0019]对
F
进行3×3标准卷积操作,并将输出结果按照通道数一分为二,左右分支各为
C/2
,设左右两个分支的输入为
y
in

[0020]对左分支的特征图
y
in
进行3×1卷积和1×3卷积

归一化以及
PReLu
激活操作得到
y
left
,此时通道数为
C/2

[0021]对右分支的特征图
y
in
进行3×1卷积和1×3卷积

归一化以及
PReLu
激活操作得到
y
right
;右分支中3×1和1×3的卷积均为扩张卷积;
[0022]将
y
left

y
right
按照通道维度拼接;
[0023]将通道维度拼接后的输出结果进行1×1卷积和使用通道注意力机制;
[0024]将通道注意力机制处理后的输出特征图与
F
特征图进行张量元素相加操作,并使用通道混洗单元处理,最终输出结果
y
out

[0025]进一步地,所述特征融合阶段,具体按照以下方式进行特征融合:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向城市街景的高效轻量的实时语义分割方法,其特征在于,包括:提取初始特征阶段:提取城市街景图像的初始特征,并使用
scSE
注意力机制对提取的初始特征进行处理;下采样阶段:通过下采样模块将原始输入城市街景图像和使用
scSE
注意力机制处理后的输出结果之间按照通道维度来建立连接;特征提取阶段:将下采样模块处理后的特征图作为输入,输送到两个特征提取模块中,第一特征提取模块和第二特征提取模块由不同个数的非对称残差瓶颈模块组成,所述的非对称残差瓶颈模块由扩张卷积

深度可分离的非对称卷积

因式分解卷积

轻量化通道注意力

通道混洗单元以及残差连接组成;特征融合阶段:将来自两个不同分支的不同分辨率的特征进行融合,其中,第一特征提取模块的输出特征图与原始图像进行拼接后的特征作为特征融合阶段的第一分支输入,第二特征提取模块的输出特征图与原始图像进行拼接后

且经过上采样和标准卷积处理后的特征作为特征融合阶段的第二分支输入;输出分割效果图:将特征融合后的特征图,经过双线性插值方法进行上采样,将输出结果恢复到原始输入城市街景图像的分辨率,进而对其进行预测,实现语义分割,最终输出分割效果图
。2.
根据权利要求1所述的一种面向城市街景的高效轻量的实时语义分割方法,其特征在于,所述提取初始特征阶段中,具体使用三个3×3的标准卷积提取城市街景图像的初始特征
。3.
根据权利要求1所述的一种面向城市街景的高效轻量的实时语义分割方法,其特征在于,所述下采样模块由步长为2,卷积核大小为3×3的卷积和2×2的最大池化组成
。4.
根据权利要求1所述的一种面向城市街景的高效轻量的实时语义分割方法,其特征在于,所述非对称残差瓶颈块中,采用双分支的结构,将两个分支采用并联的方式进行连接,使用深度可分离卷积和扩张卷积进行组合,以增加网络的感受野,优化模型的特征提取能力
。5.
根据权利要求1所述的一种面向城市街景的高效轻量的实时语义分割方法,其特征在于,在两个特征提取模块中,使用不同的扩张率以提取不同感受野下的多尺度信息,且均采用级联操作,将每一个特征提取模块中的第一个非对称残差瓶颈模块的输入和最后一个非对称残差瓶颈模块的输出按照通道维度进行拼接,以形成更高维度的特征图,获得更丰富的特征信息
。6.
根据权利要求5所述的一种面向城市街景的高效轻量的实时语义分割方法,其特征在于,利用步长为2,卷积核大小为3×3的最大池化和平均池化并行使用来实现跳跃连接,通过该跳跃连接,将原始输入图像和多个深层特征之间按照通道维度建立连接
。7.
根据...

【专利技术属性】
技术研发人员:何欣陈甲飞于俊洋王瑛琦季会勤
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1