多尺度多感知的实时图像分割方法、系统、终端及介质技术方案

技术编号：40451651 阅读：5 留言：0更新日期：2024-02-22 23:10

本发明专利技术涉及图像分割领域，具体公开一种多尺度多感知的实时图像分割方法、系统、终端及介质，在编码过程的每一阶段执行对输入特征进行多尺度多感知的步骤：将输入特征进行多尺度多通道卷积以提取局部特征；采用多层路由注意力机制对输入特征进行全局特征提取；采用跳跃连接将局部特征和全局特征进行特征融合获得当前阶段的最终输出特征。本发明专利技术使用更为轻量的多尺度多通道卷积，以求在加快模型速度的同时不影响其分割精度，同时在特征提取阶段加入了轻量级的注意力块，并使用残差连接将局部特征和全局特征进行融合，使模型拥有感知全局上下文信息的能力，利用不同层次特征信息的同时保留更多的细节，从而进一步提高模型性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像分割领域，具体涉及一种多尺度多感知的实时图像分割方法、系统、终端及介质。

技术介绍

1、图像分割是计算机视觉领域的经典问题，在医学图像分析、场景理解、增强现实等方面有着广泛应用。与一般的图像分割不同，实时图像分割网络旨在快速而准确地获得图像的分割结果。近年来，随着计算机视觉领域的不断发展，实时的图像分割成为一个有价值且有挑战的研究方向。实时的图像分割不仅可以增强交互性和可操作性，还可以支持更多的应用场景。因此，实时图像分割在一定程度上对分割模型的高效性、精确性、实用性等方面提出了更高的要求。现有的图像分割方法主要分为传统方法和深度学习方法两大类。早期的传统图像分割算法主要是基于灰度阈值、模板匹配、边缘检测、活动轮廓以及传统机器学习的方法，这些方法操作简单、原理清晰，但是由于特征表示困难、泛化能力差等缺点导致其效率低下、准确率提升不多。

2、随着计算机硬件水平不断提高，使得传统的图像分割方法开始向深度学习方法演变。卷积神经网络（cnn）的出现使得图像特征表示的获取变得更加容易，全卷积网络（fcn）将 cnn 应用到图像分割当中，开启了图像分割框架的新纪元，同时使效率与准确性在很大程度上有了提升。然而，由于 fcn 分割精度差且对细节不敏感，u-net由此衍生而来。u-net通过完全对称的编码器-解码器结构实现了端到端的分割，并结合跳跃连接和上下采样使得多尺度的特征信息得以融合。采用完全对称的 u 型结构将低级特征与高级特征充分融合，并使用跳跃连接弥补底层信息来提高分割精度的 u-net 自提

3、transformer 通过自注意力机制来获取序列中不同位置之间的相关性并在每一层中考虑整个输入序列的信息，有效地解决了长期依赖问题并捕获了全局上下文信息。vision transformer（vit）将用于自然语言处理的 transformer引入到计算机视觉领域，自注意力机制也由此成功应用到图像处理领域当中。transunet将 u-net 与 vit优点结合并充分利用，在弥补了 u-net 不能建立长距离依赖关系的同时也为 transformer 提供了更为丰富的底层细节。受此启发，更多的分割工作将不同的transformer应用到不同的分割网络中。尽管这些模型在图像分割中取得了出色的成绩，但是，transformer 家族中自注意力机制大规模的计算量，使得很多分割网络训练速度慢，显存占用率高，不能达到实时的要求。

4、为了提高实时性能，一些分割网络采用降低图像的分辨率或裁剪图像的局部区域的方法，加快模型的推理速度，如icnet 、erfnet 等。尽管这些方法加快了模型的分割速度，但都在一定程度上牺牲了低级细节。同时，另一些分割网络使用轻量级的结构将参数和计算量减少，从而加快模型的分割速度，如segnet、enet 、espnet、cfpnet-m 等。其中，一部分网络使用深度可分离卷积，使得模型的参数量获得有效的减少。深度可分离卷积将普通卷积分成了逐通道卷积和逐点卷积两个步骤，虽然大幅度减少了参数量、降低了计算开销，但在一定程度上导致信息的损失。

技术实现思路

1、为解决上述问题，本专利技术提供一种多尺度多感知的实时图像分割方法、系统、终端及介质，以提高模型速度的同时保持高精度分割。

2、第一方面，本专利技术的技术方案提供一种多尺度多感知的实时图像分割方法，该方法基于编码器-解码器结构对实时图像进行分割，包括在编码过程的每一阶段执行对输入特征进行多尺度多感知的步骤，具体包括：

3、将输入特征进行多尺度多通道卷积以提取局部特征；

4、采用多层路由注意力机制对输入特征进行全局特征提取；

5、采用跳跃连接将局部特征和全局特征进行特征融合获得当前阶段的最终输出特征。

6、在一个可选的实施方式中，将输入特征进行多尺度多通道卷积以提取局部特征，具体包括：

7、将图像进行通道分离；

8、对每个通道分别使用不同尺寸的卷积核进行卷积，获得各个通道的特征；

9、将每个通道的特征进行融合，获得融合特征；

10、对融合特征进行逐点卷积，获得最终的多尺度多通道特征，即局部特征。

11、在一个可选的实施方式中，图像被分离为3个通道。

12、在一个可选的实施方式中，3个通道分别对应尺寸为3×3、5×5、7×7的卷积核。

13、在一个可选的实施方式中，在编码过程的每一阶段执行对输入特征进行多尺度多感知的步骤之前，还包括对输入特征进行普通卷积的步骤；

14、其中，普通卷积为尺寸大小为3×3的卷积。

15、在一个可选的实施方式中，该方法还包括：

16、在解码过程中，使用一个普通卷积、一个多尺度多通道卷积和激活函数完成通道收缩。

17、在一个可选的实施方式中，该方法还包括：

18、采用跳跃连接将编码过程每个阶段的最终输出特征送入对应解码阶段中，使同分辨率水平的特征进行一次特征聚合。

19、第二方面，本专利技术的技术方案提供一种多尺度多感知的实时图像分割系统，基于编码器-解码器结构对实时图像进行分割，包括对图像进行编码的编码模块和对图像进行解码的解码模块；

20、其中编码模块包括，

21、局部特征提取单元：将输入特征进行多尺度多通道卷积以提取局部特征；

22、全局特征提取单元：采用多层路由注意力机制对输入特征进行全局特征提取；

23、特征融合单元：采用跳跃连接将局部特征和全局特征进行特征融合获得当前阶段的最终输出特征。

24、第三方面，本专利技术的技术方案提供一种终端，包括：

25、存储器，用于存储多尺度多感知的实时图像分割程序；

26、处理器，用于执行所述多尺度多感知的实时图像分割程序时实现如上述任一项所述多尺度多感知的实时图像分割方法的步骤。

27、第四方面，本专利技术的技术方案提供一种计算机可读存储介质，所述可读存储介质上存储有多尺度多感知的实时图像分割程序，所述多尺度多感知的实时图像分割程序被处理器执行时实现如上述任一项所述多尺度多感知的实时图像分割方法的步骤。

28、本专利技术提供的一种多尺度多感知的实时图像分割方法、系统、终端及介质，相对于现有技术，具有以下有益效果：使用更为轻量的多尺度多通道卷积（msmc conv），以求在加快模型速度的同时不影响其分割精度，同时在特征提取阶段加入了轻量级的注意力块，并使用残差连接将局部特征和全局特征进行融合，使模型拥有感知全局上下文信息的能力，利用不同层次特征信息的同时保留更多的细节，从而进一步提高模型性能。本文档来自技高网...

【技术保护点】

1.一种多尺度多感知的实时图像分割方法，其特征在于，该方法基于编码器-解码器结构对实时图像进行分割，包括在编码过程的每一阶段执行对输入特征进行多尺度多感知的步骤，具体包括：

2.根据权利要求1所述的多尺度多感知的实时图像分割方法，其特征在于，将输入特征进行多尺度多通道卷积以提取局部特征，具体包括：

3.根据权利要求2所述的多尺度多感知的实时图像分割方法，其特征在于，图像被分离为3个通道。

4.根据权利要求3所述的多尺度多感知的实时图像分割方法，其特征在于，3个通道分别对应尺寸为3×3、5×5、7×7的卷积核。

5.根据权利要求1-4任一项所述的多尺度多感知的实时图像分割方法，其特征在于，在编码过程的每一阶段执行对输入特征进行多尺度多感知的步骤之前，还包括对输入特征进行普通卷积的步骤；

6.根据权利要求5所述的多尺度多感知的实时图像分割方法，其特征在于，该方法还包括：

7.根据权利要求6所述的多尺度多感知的实时图像分割方法，其特征在于，该方法还包括：

8.一种多尺度多感知的实时图像分割系统，其特征在

9.一种终端，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述可读存储介质上存储有多尺度多感知的实时图像分割程序，所述多尺度多感知的实时图像分割程序被处理器执行时实现如权利要求1-7任一项所述多尺度多感知的实时图像分割方法的步骤。

...

【技术特征摘要】

2.根据权利要求1所述的多尺度多感知的实时图像分割方法，其特征在于，将输入特征进行多尺度多通道卷积以提取局部特征，具体包括：

3.根据权利要求2所述的多尺度多感知的实时图像分割方法，其特征在于，图像被分离为3个通道。

4.根据权利要求3所述的多尺度多感知的实时图像分割方法，其特征在于，3个通道分别对应尺寸为3×3、5×5、7×7的卷积核。

5.根据权利要求1-4任一项所述的多尺度多感知的实时图像分割方法，其特征在于，在编码过程的每一阶段执行对输入特征进行多尺度...

【专利技术属性】
技术研发人员：刘慧，侯琳琳，朱茜，闫子申，李恒泰，
申请(专利权)人：山东财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人