一种基于通道分离网络的自归一化图像分割方法技术

技术编号：41375009 阅读：17 留言：0更新日期：2024-05-20 10:19

本发明专利技术提出一种基于通道分离网络的自归一化图像分割方法。本发明专利技术所述方法改进了UNet分割算法，使用三维卷积神经网络CSN和二维卷积解码器搭建UNet结构，其中二维卷积解码器中使用SiLU激活函数，并利用其自归一化性质代替BN层，形成了一种基于三维卷积神经网络的二维分割算法，是对于特殊输入输出要求设计的图像分割算法，同时做到了计算复杂度和精度的权衡。同时引入多种现代模型的训练技术，将其组成为一种规范化训练框架去优化本发明专利技术提出的算法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度学习下的计算机视觉，特别是涉及一种基于通道分离网络的自归一化图像分割方法。尤其是针对3维x光扫描图像的2维语义分割方法。

技术介绍

1、出土的各类书籍、卷轴类文物表面记载了诸多关于古代哲学、科学、文学、数学、诗歌和政治的秘密，因此阅读这些文物表面字迹有着巨大的文化和经济价值。本专利技术使用的纸莎草卷轴数据集最早可追溯到公元79年，维苏威斯火山喷发摧毁了古罗马的诸多小镇。在考古学家对遗迹的发掘过程中，发现小镇中有一个包含大量纸莎草卷轴的海边别墅。虽然这些卷轴由于火山爆发的热量而碳化，但它们也因为被埋在地底被意外地保存下来。为准确还原这类文物中记载的信息，需要一种高效可靠的系统帮助研究人员重现文物表面字迹。

2、在过去的几年里，人们发现基于深度学习的方法在历史文档图像分析中发挥关键作用，被认为是满足分析具有显著退化水平和不同噪声类型的文档图像需求的一致选择。最近，基于深度学习的方法在文档图像分析的不同子领域和任务方面取得了显著进展，尤其在文本分割方面。oliveriade及其研究团队开发了一基于卷积神经网络(cnn)的框架，专注于历史文档图像分析。此外，o.mechi等人提出了一种自适应u-net架构，该架构在文本分割任务中取得了显著效果。同时，注意力机制在图像分割领域的成功应用，例如se tr和segformer，为文物字迹分割提供了新的研究方向。尽管这些算法在实现文物表面字迹的基本分割方面表现良好，但存在精度不高、计算复杂度高以及训练时间长等问题。因此，为了解决这些挑战，提出了一项改进的unet算法

技术实现思路

1、本专利技术目的是为了解决现有的图像分割算法对3维图像分割中计算复杂度与精度的权衡问题，提出了一种基于通道分离网络的自归一化图像分割方法，为3维图像的语义分割任务提供新的算法选择。

2、本专利技术是通过以下技术方案实现的，本专利技术提出一种基于通道分离网络的自归一化图像分割方法，所述方法具体为：

3、s1：对当前输入3维图像切片进行并行预处理；

4、s2：对s1得到的数据进行批处理；

5、s3：将批处理后的3维体输入到3维卷积神经网络csn中进行特征的初步提取，初步提取的特征图分别是输入3维体空间尺度为1/2、1/4、1/8、1/16和1/32下采样特征图，所述特征图的深度尺度分别是原始输入的1/1、1/1、1/2、1/4和1/8，所述特征图的特征维度分别为64、256、512、1024和2048；

6、s4：将按照s3的方式得到的5个特征图进行时间维度上的均值汇聚，得到汇聚了深度信息的5个空间特征图，分别将1/2、1/4、1/8、1/16和1/32的空间特征图分别记作f_0、f_1、f_2、f_3和f_4；

7、s5：将按照s4的方式得到的f_4进行空间维度的2倍上采样并与f_3在特征维度上拼接得到3072维空间特征图，随后将拼接的特征图通过2维卷积解码块映射到256维，将降维解码后的特征图记作d_4；

8、s6：将按照s5的方式得到的d_4进行空间维度的2倍上采样并与f_2在特征维度上拼接得到768维空间特征图，随后将拼接的特征图通过2维卷积解码块映射到128维，将降维解码后的特征图记作d_3；

9、s7：将按照s6的方式得到的d_3进行空间维度的2倍上采样并与f_1在特征维度上拼接得到384维空间特征图，随后将拼接的特征图通过2维卷积解码块映射到64维，将降维解码后的特征图记作d_2；

10、s8：将按照s7的方式得到的d_2进行空间维度的2倍上采样并与f_0在特征维度上拼接得到128维空间特征图，随后将拼接的特征图通过2维卷积解码块映射到40维，将降维解码后的特征图记作d_1；

11、s9：将按照s8的方式得到的d_1进行空间维度的2倍上采样，随后将上采样后的特征图通过2维卷积解码块映射到32维，将降维解码后的特征图记作d_0，此时解码特征图已经复原到输入数据相同的空间尺寸；

12、s10：将按照s9的方式得到的d_0通过二维卷积预测头降维到c维空间特征图，其中c维空间特征图分别是c个目标类别的语义分割掩膜；

13、s11：使用指数移动平均策略累积模型权重。

14、进一步地，所述s1对输入图片进行预处理，具体包括：水平翻转、垂直翻转、随机对比度调整、添加高斯噪声、高斯模糊、运动模糊、网格扭曲和cutout。

15、进一步地，所述s2中输入的预处理图片进行批处理，具体包括样本维度的像素归一化处理、mixup、cutmix以及通道堆叠。

16、进一步地，所述样本维度的像素归一化处理具体为：针对三维输入数据像素的均值方差去缩放其像素值，使得输入三维体的像素均值为0方差为1，同时利用gpu并行实现针对每个样本均值和方差的计算。

17、进一步地，所述通道堆叠具体为：对于一个三维体输入，其具有维度(d,h,w)，其中d为深度，h和w分别表示图像的高和宽；通道堆叠步骤需要先将输入的三维体在深度维度切割成重叠的三份，每份深度起始切割点相差x，切割厚度为t，随后将切割好的三维体在新的维度上堆叠，新的张量形状为(3,t,h,w)，d与t满足关系d＝2x+t。

18、进一步地，s3中卷积神经网络中的骨干网络由茎模块和4层网络组成；茎模块由一个3x7x7空间下采样卷积和最值汇聚层组成；其余4层网络均由3维卷积瓶颈块组成，计算量比例为3：4：6：3，每个3维卷积瓶颈块由三层卷积层组成，其中第二个卷积层为深度3维卷积层。

19、进一步地，所述骨干网络的五个部分的模型宽度分别为64、256、512、1024和2048。

20、进一步地，所述s5、s6、s7、s8、s9中的卷积解码块由二维卷积层和silu激活函数构成。

21、本专利技术提出一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述一种基于通道分离网络的自归一化图像分割方法的步骤。

22、本专利技术提出一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时实现所述一种基于通道分离网络的自归一化图像分割方法的步骤。

23、本专利技术的有益效果为：

24、本专利技术提出一种基于通道分离网络的自归一化图像分割方法，本专利技术所述方法改进了unet分割算法，使用三维卷积神经网络csn和二维卷积解码器搭建unet结构，其中二维卷积解码器中使用silu激活函数，并利用其自归一化性质代替bn层，形成了一种基于三维卷积神经网络的二维分割算法，是对于特殊输入输出要求设计的图像分割算法，同时做到了计算复杂度和精度的权衡。同时引入多种现代模型的训练技术，将其组成本文档来自技高网...

【技术保护点】

1.一种基于通道分离网络的自归一化图像分割方法，其特征在于，所述方法具体为：

2.根据权利要求1所述的方法，其特征在于，所述S1对输入图片进行预处理，具体包括：水平翻转、垂直翻转、随机对比度调整、添加高斯噪声、高斯模糊、运动模糊、网格扭曲和CutOut。

3.根据权利要求1所述的方法，其特征在于，所述S2中输入的预处理图片进行批处理，具体包括样本维度的像素归一化处理、Mixup、CutMix以及通道堆叠。

4.根据权利要求3所述的方法，其特征在于，所述样本维度的像素归一化处理具体为：针对三维输入数据像素的均值方差去缩放其像素值，使得输入三维体的像素均值为0方差为1，同时利用GPU并行实现针对每个样本均值和方差的计算。

5.根据权利要求3所述的方法，其特征在于，所述通道堆叠具体为：对于一个三维体输入，其具有维度(D,H,W)，其中D为深度，H和W分别表示图像的高和宽；通道堆叠步骤需要先将输入的三维体在深度维度切割成重叠的三份，每份深度起始切割点相差X，切割厚度为T，随后将切割好的三维体在新的维度上堆叠，新的张量形状为(3,T,H,W)，D与T满足关系D＝2X+T。

6.根据权利要求1所述的方法，其特征在于，S3中卷积神经网络中的骨干网络由茎模块和4层网络组成；茎模块由一个3x7x7空间下采样卷积和最值汇聚层组成；其余4层网络均由3维卷积瓶颈块组成，计算量比例为3：4：6：3，每个3维卷积瓶颈块由三层卷积层组成，其中第二个卷积层为深度3维卷积层。

7.根据权利要求6所述的方法，其特征在于，所述骨干网络的五个部分的模型宽度分别为64、256、512、1024和2048。

8.根据权利要求1所述的方法，其特征在于，所述S5、S6、S7、S8、S9中的卷积解码块由二维卷积层和SiLU激活函数构成。

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-8任一项所述方法的步骤。

10.一种计算机可读存储介质，用于存储计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-8任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于通道分离网络的自归一化图像分割方法，其特征在于，所述方法具体为：

2.根据权利要求1所述的方法，其特征在于，所述s1对输入图片进行预处理，具体包括：水平翻转、垂直翻转、随机对比度调整、添加高斯噪声、高斯模糊、运动模糊、网格扭曲和cutout。

3.根据权利要求1所述的方法，其特征在于，所述s2中输入的预处理图片进行批处理，具体包括样本维度的像素归一化处理、mixup、cutmix以及通道堆叠。

4.根据权利要求3所述的方法，其特征在于，所述样本维度的像素归一化处理具体为：针对三维输入数据像素的均值方差去缩放其像素值，使得输入三维体的像素均值为0方差为1，同时利用gpu并行实现针对每个样本均值和方差的计算。

5.根据权利要求3所述的方法，其特征在于，所述通道堆叠具体为：对于一个三维体输入，其具有维度(d,h,w)，其中d为深度，h和w分别表示图像的高和宽；通道堆叠步骤需要先将输入的三维体在深度维度切割成重叠的三份，每份深度起始切割点相差x，切割厚度为t，随后将切割好的三维体在新的维...

【专利技术属性】
技术研发人员：金晶，吴由欣，姜宇，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人