System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于MobileViT与UNet模型的图像分割方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>华侨大学专利>正文

一种基于MobileViT与UNet模型的图像分割方法及系统技术方案

技术编号:40703200 阅读:4 留言:0更新日期:2024-03-22 11:02
本发明专利技术公开了一种基于MobileViT与UNet模型的图像分割方法及系统,应用图像识别领域,方法包括:将原始的RGB三通道图像大小进行调整,并对应调整标签图像大小;将调整后的RGB图像输入分割模型进行训练,获得训练好的模型参数;所述分割模型包括编码器和解码器;所述编码器用于对调整后的RGB图像进行特征提取;所述解码器的输入为所述编码器的输出,所述解码器输出与编码器部分相同空间分辨率的特征图;使用训练好的分割模型进行图像分割,输出与标签图像的大小一致的分割图像。本发明专利技术降低了模型的计算成本,提高了分割速度和分割精度,适用于实时和大规模应用。

【技术实现步骤摘要】

本专利技术涉及图像处理领域,特别涉及一种基于mobilevit与unet模型的图像分割方法及系统。


技术介绍

1、随着工业自动化和视觉技术的快速发展,工业图像分割在自动化生产和质量控制中变得至关重要。工业图像分割是一项复杂而关键的任务,它可以帮助工程师和研究人员准确地识别和定位生产线上的物体、缺陷或异常情况,从而提高了工业生产的效率、质量和安全性。

2、现有的工业图像分割方法存在一系列明显的缺陷,这些缺陷限制了它们在实际应用中的效用。首先,许多传统的图像分割方法往往过于复杂,需要大量的计算资源和时间,这在工业环境下并不可行,特别是在移动设备上的应用。这限制了这些方法的实际可用性和部署范围。其次,一些传统方法对工业图像的多样性和复杂性表现出有限的适应性。它们难以处理不同光照条件、角度和拍摄设备导致的变化,这在工业场景中经常出现。这导致了分割的不稳定性和不准确性。此外,现有的方法通常侧重于特定领域或特定类型的工业图像,难以泛化到不同类型的工业应用中。这缺乏通用性,需要根据具体应用进行不同的定制和调整。

3、综上,传统的工业图像分割方法通常面临计算复杂性高、模型效果有限和对硬件资源要求较高的挑战。为了应对这些问题,深度学习方法已经成为工业图像分割领域的一项重要创新。unet模型作为一种经典的卷积神经网络结构,已经在工业图像分割任务中取得了显著的成功。然而,在需要轻量级和高效模型的工业环境中,传统的unet模型可能会受到一些限制,如在嵌入式视觉系统或实时生产线监控中的应用。


技术实现思

1、针对现有技术的问题,本专利技术的目的在于提供一种基于mobilevit与unet模型的图像分割方法及系统,分割模型以unet为基础,同时融合了mobilevit的网络结构,对unet的卷积模块和特征金字塔结构进行了改进,能够有效地处理工业环境中的图像,提高分割精度和加快推理速度,在资源受限的情况下提供高质量的分割结果。

2、本专利技术采用如下技术方案:

3、一方面,一种基于mobilevit与unet模型的图像分割方法,包括:

4、s101,将原始的rgb三通道图像大小进行调整,并对应调整标签图像大小;

5、s102,将调整后的rgb图像输入分割模型进行训练,获得训练好的模型参数;所述分割模型包括编码器和解码器;所述编码器用于对调整后的rgb图像进行特征提取;所述解码器的输入为所述编码器的输出,所述解码器输出与编码器部分相同空间分辨率的特征图;

6、所述编码器包括若干倒残差结构和mobilevit结构;所述编码器包括若干上倒残差结构和mobilevit结构;所述编码器的倒残差结构与解码器的上倒残差结构建立有跳跃连接;所述编码器的mobilevit结构与解码器的mobilevit结构建立有跳跃连接;

7、s103,使用训练好的分割模型进行图像分割,输出与标签图像的大小一致的分割图像。

8、优选的,s101中,rgb三通道图像大小调整为512×512×3,对应的标签图像大小调整为512×512×1。

9、优选的,所述编码器包括依次相连接的卷积核大小为3×3步长为2的卷积层、卷积核大小为2×2的池化层、步长为1的第一倒残差结构、步长为2的第二倒残差结构、两步长为1的第三倒残差结构、步长为2的第四倒残差结构、第一mobilevit结构、步长为2的第五倒残差结构、第二mobilevit结构、步长为2的第六倒残差结构、第三mobilevit结构、步长为2的第七倒残差结构、第四mobilevit结构和第五mobilevit结构;其中,所述卷积层与调整后的rgb图像相连接;所述第五mobilevit结构与解码器相连接。

10、优选的,所述解码器包括依次相连接的2倍上采样且步长为1的第一上倒残差结构、第六mobilevit结构、2倍上采样且步长为1的第二上倒残差结构、第七mobilevit结构、2倍上采样且步长为1的第三上倒残差结构、第八mobilevit结构、2倍上采样且步长为1的第四上倒残差结构、两步长为1的第八倒残差结构、2倍上采样且步长为1的第五上倒残差结构、步长为1的第九倒残差结构、卷积核大小为3×3步长为2的卷积层和分类层;所述第一上倒残差结构与第五mobilevit结构相连接。

11、优选的,所述步长为2的第四倒残差结构与2倍上采样且步长为1的第四上倒残差结构之间建立有跳跃连接;

12、所述第一mobilevit结构与第八mobilevit结构之间建立有跳跃连接;

13、所述步长为2的第五倒残差结构与2倍上采样且步长为1的第三上倒残差结构之间建立有跳跃连接;

14、所述第二mobilevit结构与第七mobilevit结构之间建立有跳跃连接;

15、所述步长为2的第六倒残差结构与2倍上采样且步长为1的第二上倒残差结构之间建立有跳跃连接;

16、所述第三mobilevit结构与第六mobilevit结构之间建立有跳跃连接;

17、所述步长为2的第七倒残差结构与第一上倒残差结构之间建立有跳跃连接。

18、优选的,所述倒残差结构包括:

19、依次连接的1x1卷积层、3x3的卷积操作的深度可分离卷积层和1x1卷积层。

20、优选的,所述上倒残差结构包括:

21、依次连接的双线性插值层、1x1卷积层、3x3的卷积操作的深度可分离卷积层和1x1卷积层。

22、优选的,模型训练时使用的损失函数如下:

23、

24、其中,|y|表示真实标签的像素总数;|yp|表示模型的预测值的像素总数;|y∩yp|表示真实标签与模型输出的交集;cosh是双曲余弦函数;log是自然对数。

25、另一方面,一种基于mobilevit与unet模型的图像分割系统,包括:

26、预处理模块,用于将原始的rgb三通道图像大小进行调整,并对应调整标签图像大小;

27、训练模块,用于将调整后的rgb图像输入分割模型进行训练,获得训练好的模型参数;所述分割模型包括编码器和解码器;所述编码器用于对调整后的rgb图像进行特征提取;所述编码器的输出作为解码器的输入,所述解码器输出与编码器部分相同空间分辨率的特征图;

28、所述编码器包括若干倒残差结构和mobilevit结构;所述编码器包括若干上倒残差结构和mobilevit结构;所述编码器的倒残差结构与解码器的上倒残差结构建立有跳跃连接;所述编码器的mobilevit结构与解码器的mobilevit结构建立有跳跃连接;

29、分割模块,用于使用训练好的分割模型进行图像分割,输出与标签图像的大小一致的分割图像。

30、与现有技术相比,本专利技术的有益效果如下:

31、(1)本专利技术将mobilevit网络结构应用于unet模型中的编码器部分,结合倒残差结构(上倒残差结构)和mo本文档来自技高网...

【技术保护点】

1.一种基于MobileViT与UNet模型的图像分割方法,其特征在于,包括:

2.根据权利要求1所述的基于MobileViT与UNet模型的图像分割方法,其特征在于,S101中,RGB三通道图像大小调整为512×512×3,对应的标签图像大小调整为512×512×1。

3.根据权利要求1所述的基于MobileViT与UNet模型的图像分割方法,其特征在于,所述编码器包括依次相连接的卷积核大小为3×3步长为2的卷积层、卷积核大小为2×2的池化层、步长为1的第一倒残差结构、步长为2的第二倒残差结构、两步长为1的第三倒残差结构、步长为2的第四倒残差结构、第一MobileViT结构、步长为2的第五倒残差结构、第二MobileViT结构、步长为2的第六倒残差结构、第三MobileViT结构、步长为2的第七倒残差结构、第四MobileViT结构和第五MobileViT结构;其中,所述卷积层与调整后的RGB图像相连接;所述第五MobileViT结构与解码器相连接。

4.根据权利要求3所述的基于MobileViT与UNet模型的图像分割方法,其特征在于,所述解码器包括依次相连接的2倍上采样且步长为1的第一上倒残差结构、第六MobileViT结构、2倍上采样且步长为1的第二上倒残差结构、第七MobileViT结构、2倍上采样且步长为1的第三上倒残差结构、第八MobileViT结构、2倍上采样且步长为1的第四上倒残差结构、两步长为1的第八倒残差结构、2倍上采样且步长为1的第五上倒残差结构、步长为1的第九倒残差结构、卷积核大小为3×3步长为2的卷积层和分类层;所述第一上倒残差结构与第五MobileViT结构相连接。

5.根据权利要求4所述的基于MobileViT与UNet模型的图像分割方法,其特征在于,

6.根据权利要求1所述的基于MobileViT与UNet模型的图像分割方法,其特征在于,所述倒残差结构包括:

7.根据权利要求1所述的基于MobileViT与UNet模型的图像分割方法,其特征在于,所述上倒残差结构包括:

8.根据权利要求1所述的基于MobileViT与UNet模型的图像分割方法,其特征在于,模型训练时使用的损失函数如下:

9.一种基于MobileViT与UNet模型的图像分割系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于mobilevit与unet模型的图像分割方法,其特征在于,包括:

2.根据权利要求1所述的基于mobilevit与unet模型的图像分割方法,其特征在于,s101中,rgb三通道图像大小调整为512×512×3,对应的标签图像大小调整为512×512×1。

3.根据权利要求1所述的基于mobilevit与unet模型的图像分割方法,其特征在于,所述编码器包括依次相连接的卷积核大小为3×3步长为2的卷积层、卷积核大小为2×2的池化层、步长为1的第一倒残差结构、步长为2的第二倒残差结构、两步长为1的第三倒残差结构、步长为2的第四倒残差结构、第一mobilevit结构、步长为2的第五倒残差结构、第二mobilevit结构、步长为2的第六倒残差结构、第三mobilevit结构、步长为2的第七倒残差结构、第四mobilevit结构和第五mobilevit结构;其中,所述卷积层与调整后的rgb图像相连接;所述第五mobilevit结构与解码器相连接。

4.根据权利要求3所述的基于mobilevit与unet模型的图像分割方法,其特征在于,所述解码器包括依次相连接...

【专利技术属性】
技术研发人员:刘昱温廷羲童斌斌
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1