一种基于MobileViT与UNet模型的图像分割方法及系统技术方案

技术编号：40703200 阅读：4 留言：0更新日期：2024-03-22 11:02

本发明专利技术公开了一种基于MobileViT与UNet模型的图像分割方法及系统，应用图像识别领域，方法包括：将原始的RGB三通道图像大小进行调整，并对应调整标签图像大小；将调整后的RGB图像输入分割模型进行训练，获得训练好的模型参数；所述分割模型包括编码器和解码器；所述编码器用于对调整后的RGB图像进行特征提取；所述解码器的输入为所述编码器的输出，所述解码器输出与编码器部分相同空间分辨率的特征图；使用训练好的分割模型进行图像分割，输出与标签图像的大小一致的分割图像。本发明专利技术降低了模型的计算成本，提高了分割速度和分割精度，适用于实时和大规模应用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理领域，特别涉及一种基于mobilevit与unet模型的图像分割方法及系统。

技术介绍

1、随着工业自动化和视觉技术的快速发展，工业图像分割在自动化生产和质量控制中变得至关重要。工业图像分割是一项复杂而关键的任务，它可以帮助工程师和研究人员准确地识别和定位生产线上的物体、缺陷或异常情况，从而提高了工业生产的效率、质量和安全性。

2、现有的工业图像分割方法存在一系列明显的缺陷，这些缺陷限制了它们在实际应用中的效用。首先，许多传统的图像分割方法往往过于复杂，需要大量的计算资源和时间，这在工业环境下并不可行，特别是在移动设备上的应用。这限制了这些方法的实际可用性和部署范围。其次，一些传统方法对工业图像的多样性和复杂性表现出有限的适应性。它们难以处理不同光照条件、角度和拍摄设备导致的变化，这在工业场景中经常出现。这导致了分割的不稳定性和不准确性。此外，现有的方法通常侧重于特定领域或特定类型的工业图像，难以泛化到不同类型的工业应用中。这缺乏通用性，需要根据具体应用进行不同的定制和调整。

3、综上，传统的工业图像分割方法通常面临计算复杂性高、模型效果有限和对硬件资源要求较高的挑战。为了应对这些问题，深度学习方法已经成为工业图像分割领域的一项重要创新。unet模型作为一种经典的卷积神经网络结构，已经在工业图像分割任务中取得了显著的成功。然而，在需要轻量级和高效模型的工业环境中，传统的unet模型可能会受到一些限制，如在嵌入式视觉系统或实时生产线监控中的应用。

技术实现思路

1、针对现有技术的问题，本专利技术的目的在于提供一种基于mobilevit与unet模型的图像分割方法及系统，分割模型以unet为基础，同时融合了mobilevit的网络结构，对unet的卷积模块和特征金字塔结构进行了改进，能够有效地处理工业环境中的图像，提高分割精度和加快推理速度，在资源受限的情况下提供高质量的分割结果。

2、本专利技术采用如下技术方案：

3、一方面，一种基于mobilevit与unet模型的图像分割方法，包括：

4、s101，将原始的rgb三通道图像大小进行调整，并对应调整标签图像大小；

5、s102，将调整后的rgb图像输入分割模型进行训练，获得训练好的模型参数；所述分割模型包括编码器和解码器；所述编码器用于对调整后的rgb图像进行特征提取；所述解码器的输入为所述编码器的输出，所述解码器输出与编码器部分相同空间分辨率的特征图；

6、所述编码器包括若干倒残差结构和mobilevit结构；所述编码器包括若干上倒残差结构和mobilevit结构；所述编码器的倒残差结构与解码器的上倒残差结构建立有跳跃连接；所述编码器的mobilevit结构与解码器的mobilevit结构建立有跳跃连接；

7、s103，使用训练好的分割模型进行图像分割，输出与标签图像的大小一致的分割图像。

8、优选的，s101中，rgb三通道图像大小调整为512×512×3，对应的标签图像大小调整为512×512×1。

9、优选的，所述编码器包括依次相连接的卷积核大小为3×3步长为2的卷积层、卷积核大小为2×2的池化层、步长为1的第一倒残差结构、步长为2的第二倒残差结构、两步长为1的第三倒残差结构、步长为2的第四倒残差结构、第一mobilevit结构、步长为2的第五倒残差结构、第二mobilevit结构、步长为2的第六倒残差结构、第三mobilevit结构、步长为2的第七倒残差结构、第四mobilevit结构和第五mobilevit结构；其中，所述卷积层与调整后的rgb图像相连接；所述第五mobilevit结构与解码器相连接。

10、优选的，所述解码器包括依次相连接的2倍上采样且步长为1的第一上倒残差结构、第六mobilevit结构、2倍上采样且步长为1的第二上倒残差结构、第七mobilevit结构、2倍上采样且步长为1的第三上倒残差结构、第八mobilevit结构、2倍上采样且步长为1的第四上倒残差结构、两步长为1的第八倒残差结构、2倍上采样且步长为1的第五上倒残差结构、步长为1的第九倒残差结构、卷积核大小为3×3步长为2的卷积层和分类层；所述第一上倒残差结构与第五mobilevit结构相连接。

11、优选的，所述步长为2的第四倒残差结构与2倍上采样且步长为1的第四上倒残差结构之间建立有跳跃连接；

12、所述第一mobilevit结构与第八mobilevit结构之间建立有跳跃连接；

13、所述步长为2的第五倒残差结构与2倍上采样且步长为1的第三上倒残差结构之间建立有跳跃连接；

14、所述第二mobilevit结构与第七mobilevit结构之间建立有跳跃连接；

15、所述步长为2的第六倒残差结构与2倍上采样且步长为1的第二上倒残差结构之间建立有跳跃连接；

16、所述第三mobilevit结构与第六mobilevit结构之间建立有跳跃连接；

17、所述步长为2的第七倒残差结构与第一上倒残差结构之间建立有跳跃连接。

18、优选的，所述倒残差结构包括：

19、依次连接的1x1卷积层、3x3的卷积操作的深度可分离卷积层和1x1卷积层。

20、优选的，所述上倒残差结构包括：

21、依次连接的双线性插值层、1x1卷积层、3x3的卷积操作的深度可分离卷积层和1x1卷积层。

22、优选的，模型训练时使用的损失函数如下：

23、

24、其中，|y|表示真实标签的像素总数；|yp|表示模型的预测值的像素总数；|y∩yp|表示真实标签与模型输出的交集；cosh是双曲余弦函数；log是自然对数。

25、另一方面，一种基于mobilevit与unet模型的图像分割系统，包括：

26、预处理模块，用于将原始的rgb三通道图像大小进行调整，并对应调整标签图像大小；

27、训练模块，用于将调整后的rgb图像输入分割模型进行训练，获得训练好的模型参数；所述分割模型包括编码器和解码器；所述编码器用于对调整后的rgb图像进行特征提取；所述编码器的输出作为解码器的输入，所述解码器输出与编码器部分相同空间分辨率的特征图；

28、所述编码器包括若干倒残差结构和mobilevit结构；所述编码器包括若干上倒残差结构和mobilevit结构；所述编码器的倒残差结构与解码器的上倒残差结构建立有跳跃连接；所述编码器的mobilevit结构与解码器的mobilevit结构建立有跳跃连接；

29、分割模块，用于使用训练好的分割模型进行图像分割，输出与标签图像的大小一致的分割图像。

30、与现有技术相比，本专利技术的有益效果如下：

31、(1)本专利技术将mobilevit网络结构应用于unet模型中的编码器部分，结合倒残差结构(上倒残差结构)和mo本文档来自技高网...

【技术保护点】

1.一种基于MobileViT与UNet模型的图像分割方法，其特征在于，包括：

2.根据权利要求1所述的基于MobileViT与UNet模型的图像分割方法，其特征在于，S101中，RGB三通道图像大小调整为512×512×3，对应的标签图像大小调整为512×512×1。

3.根据权利要求1所述的基于MobileViT与UNet模型的图像分割方法，其特征在于，所述编码器包括依次相连接的卷积核大小为3×3步长为2的卷积层、卷积核大小为2×2的池化层、步长为1的第一倒残差结构、步长为2的第二倒残差结构、两步长为1的第三倒残差结构、步长为2的第四倒残差结构、第一MobileViT结构、步长为2的第五倒残差结构、第二MobileViT结构、步长为2的第六倒残差结构、第三MobileViT结构、步长为2的第七倒残差结构、第四MobileViT结构和第五MobileViT结构；其中，所述卷积层与调整后的RGB图像相连接；所述第五MobileViT结构与解码器相连接。

4.根据权利要求3所述的基于MobileViT与UNet模型的图像分割方法，其特征在于，所述

5.根据权利要求4所述的基于MobileViT与UNet模型的图像分割方法，其特征在于，

6.根据权利要求1所述的基于MobileViT与UNet模型的图像分割方法，其特征在于，所述倒残差结构包括：

7.根据权利要求1所述的基于MobileViT与UNet模型的图像分割方法，其特征在于，所述上倒残差结构包括：

8.根据权利要求1所述的基于MobileViT与UNet模型的图像分割方法，其特征在于，模型训练时使用的损失函数如下：

9.一种基于MobileViT与UNet模型的图像分割系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于mobilevit与unet模型的图像分割方法，其特征在于，包括：

2.根据权利要求1所述的基于mobilevit与unet模型的图像分割方法，其特征在于，s101中，rgb三通道图像大小调整为512×512×3，对应的标签图像大小调整为512×512×1。

3.根据权利要求1所述的基于mobilevit与unet模型的图像分割方法，其特征在于，所述编码器包括依次相连接的卷积核大小为3×3步长为2的卷积层、卷积核大小为2×2的池化层、步长为1的第一倒残差结构、步长为2的第二倒残差结构、两步长为1的第三倒残差结构、步长为2的第四倒残差结构、第一mobilevit结构、步长为2的第五倒残差结构、第二mobilevit结构、步长为2的第六倒残差结构、第三mobilevit结构、步长为2的第七倒残差结构、第四mobilevit结构和第五mobilevit结构；其中，所述卷积层与调整后的rgb图像相连接；所述第五mobilevit结构与解码器相连接。

4.根据权利要求3所述的基于mobilevit与unet模型的图像分割方法，其特征在于，所述解码器包括依次相连接...

【专利技术属性】
技术研发人员：刘昱，温廷羲，童斌斌，
申请(专利权)人：华侨大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人