System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面对X射线钛合金图像分割的轻量化视觉Transformer算法制造技术_技高网
当前位置: 首页 > 专利查询>东南大学专利>正文

面对X射线钛合金图像分割的轻量化视觉Transformer算法制造技术

技术编号:40384194 阅读:6 留言:0更新日期:2024-02-20 22:19
本发明专利技术公开了一种面对X射线钛合金图像分割的轻量化视觉Transformer算法;构建自适应轴向注意力机制的轻量化视觉Transformer分割网络,将X射线图像数据输入到所搭建的网络中进行,输入的图像经过主干层后分别进入用于提取图像语义信息的语义分支和用于提取图像细节信息的空间分支;使用特征融合模块,将语义分支和空间分支提取的特征信息相融合;将融合后的信息输入到轻量化分割头中,应用反向传播更新网络参数从而得到训练好的网络模型;用训练好的网络模型进行语义分割测试。本发明专利技术解决了传统Transformer计算量大难以落地,以及推理快速性与精准性无法很好融合的问题,在面对高像素X射线图像的密集分割任务时有很好的效果,也可以应用于图像分类、目标检测等深度学习视觉任务。

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域,具体涉及到一种面对x射线钛合金图像分割的,基于自适应轴向注意力机制的轻量化视觉transformer(arformer)算法。


技术介绍

0、背景

1、金属焊接缺陷可以定义为焊缝表面出现的不规则、不连续性、缺陷或不一致性。焊接接头的缺陷可能导致零件和组件的报废、昂贵的维修费用、工作条件下性能的显著降低,在极端情况下,还可能导致导致财产和生命损失的灾难性故障。x射线焊缝像素具有区域小,对比度低,难检测等特点。针对关于钛合金图像的密集型分割任务,与卷积网络相比具有更强模型解释性和长距离建模能力的transformer技术更值得考虑。

2、transformer技术在自然语言处理领域得到了广泛的应用,随着google于2020年提出了最早的视觉transformer模型,vit(visiontransformer),许多计算机视觉任务(如语义分割)的模式最近发生了重大变革。视觉transformer模型的优点包括:1.具有很强的建模能力:自注意力机制可以有效地捕捉输入图像中的长距离依赖关系,可以对图像中的全局和局部信息进行充分建模。2.可以进行端到端的训练:与传统的卷积神经网络相比,视觉transformer模型具有更好的可解释性,可以进行端到端的训练,避免了手工设计特征的过程。3.可以灵活处理不同分辨率的输入:视觉transformer模型不依赖于输入图像的尺寸和分辨率,可以处理不同分辨率的输入图像。

3、虽然视觉transformer在各视觉任务上都有着很好的准确率表现,但是它有一个很大的缺点就是计算复杂度较高:由于自注意力机制需要对输入序列中的所有位置进行计算,因此计算复杂度较高,难以处理大规模的图像数据。其对设备的要求,部署的难度也会高很多,不适合在实际应用场景中手机、机器人、无人机等这些存储资源有限,计算能力较小的边界设备中使用。应用在x射线重建后的高分辨率分割任务,传统transformer的复杂度也相当之高,为了适应实际任务运用中的需求,轻量化网络结构模型得到了更多的关注。但是其中一些算法一味地为了轻量化使得运算速度进行提高却忽略了视觉任务的精度,因此如何在速度与精度之间达到一个平衡,即既保证推理的高精度,又要保证网络足够轻量可以在小型移动设备上完成部署成为了推进视觉transformer落地的核心。


技术实现思路

1、专利技术目的:本专利技术一种面对x射线钛合金图像分割的,基于自适应轴向注意力机制的轻量化视觉transformer算法,在视觉任务(图像分类、目标检测、语义分割等)推理精度和速度之间达到了完美的平衡,解决了传统transformer计算量大难以落地,以及推理快速性与精准性无法很好融合的问题,在面对高像素x射线图像的密集分割任务时有很好的效果。

2、
技术实现思路
:本专利技术一种基于自适应轴向注意力机制的轻量化视觉transformer算法,具体包括以下步骤(以语义分割任务为例):

3、步骤1,构建自适应轴向注意力机制的轻量化视觉transformer分割网络,所述网络包括空间信息和语义信息双分支,特征融合模块,以及轻量化的分割头;

4、步骤2,对预先获取的数据集中的图像以及对应的标签进行预处理,再输入到所搭建的网络中进行训练,输入的图像经过主干层后分辨率下采样为原来的1/4,后分别进入用于提取图像语义信息的语义分支(contextbranch)和用于提取图像细节信息的空间分支(spatialbranch);

5、步骤3,使用特征融合模块,将语义分支和空间分支提取的特征信息相融合,此时特征的分辨率为原图的1/16;通过特征融合模块与语义分支输出进行层层融合;融合后的特征既包含丰富的图像语义信息,又包含足够的细节特征;

6、步骤4,将融合后的信息输入到轻量化分割头中,经过双线性插值恢复到原图分辨率尺寸得到预测结果并与对应标注标签进行对比,计算交叉熵损失函数作为目标函数,应用反向传播更新网络参数从而得到训练好的网络模型;

7、步骤5,用训练好的网络模型进行语义分割测试。

8、优选地,所述步骤1构建的自适应轴向注意力机制的轻量化视觉transformer分割网络的主干有两种规格,arformer-s和arformer-b。两者在每个模块阶段的通道深度和模块数量有着不同,arformer-s有着更快的推理速度,arformer-b有着更强的网络特征提取能力。

9、优选地,所描述的步骤2,3实现过程如下:

10、输入图像通过共享主干层(sharedstem)获得基本特征:

11、fstem=mv2(mv2(conv3x3(fin)))

12、其中mv2代表mobilenetv2中的倒残差结构,由两个深度可分离卷积层和一个残差连接组成。与传统的残差块不同的是,倒残差结构在前一层的输出上应用了1x1卷积层,以减少特征图的通道数。这种设计可以在保持模型深度的同时减少计算量和参数量,从而提高模型的计算效率。其中conv和第二个mv2都进行了1/2下采样。

13、接着,特征分别进入用于提取图像语义信息的语义分支(contextbranch)和用于提取图像细节信息的空间分支(spatialbranch)。

14、在语义分支上,共分为三层,每层由一个下采样的倒残差结构,和ni个串联的自适应轴向transformer模块组成,ni为第i层包含transformer的模块个数。transformer模块由多头自适应轻量注意力机制(masa)和多层感知器(mlp)组成,会在具体实施方法中进行介绍。

15、masa是一种动态的、可查询的稀疏轴向注意力机制。本专利技术的关键思想是利用轴向邻接矩阵找到最具关联性的轴向像素集合,实现轻量化路由。邻接矩阵中的元素表示两行或两列在语义上的关联程度,核心步骤是通过只保留每行或每列的最大的topk个元素来修剪亲和图。在空间分支上,由加了bn层的conv组成,且不进行分辨率下采样,使得能够较好的保留图像的细节特征。

16、fc1=layer1(fstem)fc2=layer2(fc1)fc3=layer2(fc2)

17、其中fc1,fc2,fc3分别为特征经过语义分支三层结构后的输出,输出特征大小分别为原图的1/8,1/16,1/32。

18、在空间分支上,通过特征融合模块与语义分支输出进行层层融合。

19、fs1=fusion(fstem,fc1)fs2=fusion(fs1,fc2)fs3=fusion(fs2,fc3)

20、其中fusion代表特征融合模块,fs3是空间分支与语义分支的最后融合特征。

21、然后,空间分支与语义分支的融合特征,通过轻量化分割头,恢复到原图像大小,并进行推理预测,计算损失和反向传播,更新网络参数。seg代表轻量化分割操作。

22、fout=seg(fs3)...

【技术保护点】

1.面对X射线钛合金图像分割的轻量化视觉Transformer算法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的面对X射线钛合金图像分割的轻量化视觉Transformer算法,其特征在于,所述步骤1中,所述网络包括空间信息和语义信息双分支,特征融合模块,以及轻量化的分割头。

3.根据权利要求1所述的面对X射线钛合金图像分割的轻量化视觉Transformer算法,其特征在于,所述步骤2中,主干层由包含BN层和ReLU层的Conv结构一级MobileNetV2中的倒残差结构组成;倒残差结构在前一层的输出上应用了1x1卷积层,以减少特征图的通道数;其中Conv和第二个MV2都进行了1/2下采样;该主干层由语义分支和空间分支共享。

4.根据权利要求1所述的面对X射线钛合金图像分割的轻量化视觉Transformer算法,其特征在于,所述步骤2中,在语义分支上,共分为三层,每层由一个下采样的倒残差结构,和Ni个串联的自适应轴向Transformer模块组成,Ni为第i层包含Transformer的模块个数;Transformer模块由多头自适应轻量注意力机制MASA和多层感知器MLP组成。

5.根据权利要求1所述的面对X射线钛合金图像分割的轻量化视觉Transformer算法,其特征在于,所述步骤3中,通过特征融合模块与语义分支输出进行层层融合;融合后的特征既包含丰富的图像语义信息,又包含足够的细节特征。

6.根据权利要求1所述的面对X射线钛合金图像分割的轻量化视觉Transformer算法,其特征在于,所述步骤4中,将融合后的信息输入到分割头中,经过双线性插值恢复到原图尺寸得到预测结果并与对应标注标签进行对比,计算交叉熵损失函数作为目标函数,应用反向传播更新网络参数从而得到训练好的网络模型。

...

【技术特征摘要】

1.面对x射线钛合金图像分割的轻量化视觉transformer算法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的面对x射线钛合金图像分割的轻量化视觉transformer算法,其特征在于,所述步骤1中,所述网络包括空间信息和语义信息双分支,特征融合模块,以及轻量化的分割头。

3.根据权利要求1所述的面对x射线钛合金图像分割的轻量化视觉transformer算法,其特征在于,所述步骤2中,主干层由包含bn层和relu层的conv结构一级mobilenetv2中的倒残差结构组成;倒残差结构在前一层的输出上应用了1x1卷积层,以减少特征图的通道数;其中conv和第二个mv2都进行了1/2下采样;该主干层由语义分支和空间分支共享。

4.根据权利要求1所述的面对x射线钛合金图像分割的轻量化视觉transformer算法,其特征在于,所述步骤...

【专利技术属性】
技术研发人员:杨万扣冀春旺钟泺泠赵立业
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1