一种基于语义约束的Transformer多模态影像分割方法技术

技术编号:38209854 阅读:11 留言:0更新日期:2023-07-21 17:00
本发明专利技术公开了一种基于语义约束的Transformer多模态影像分割方法,包括:将待分割影像从m个模态通过主干编码器行特征提取获得n个不同的模态特征得到对应模态的特征图;通过多模态特征交互模块去除冗余特征,并根据跨模态交互模块(CFI)产生的门控矩阵G对当前模态特征进行不同程度的加强;随后将特定模态增强特征图拼接输入到Transformer进行模态间特征融合,得到最终编码特征;最后将特征输入到Kmeans

【技术实现步骤摘要】
一种基于语义约束的Transformer多模态影像分割方法


[0001]本专利技术属于计算机视觉影像领域,涉及一种基于语义约束的Transformer多模态图像分割方法。

技术介绍

[0002]多模态图像分割在图像分割起着至关重要的作用。补充信息能够以更高的准确性进行分割。磁性共振成像是定量评估的常用成像技术实践中,多种成像模式,即T1加权(T1)、T2加权(T2)、对比增强T1加权(T1c),和流体衰减反演恢复(FLAIR)图像。假如每种成像模式都提供独特的对比,多模态磁共振成像通过为分析提供丰富的补充信息。假如每种成像模式都提供独特的对比度和结构。用于分割的多模态图像的关联学习。此外,在实践中,通常使用增强图像观察。造影剂通过时产生明显的对比在正常组织与异常之间的关系。三种形态的对比增强成像方案包括静脉和动脉阶段以及静脉内造影延迟。三相图像有助于更好地分割图像,因为它们可以彼此之间良好互补信息。
[0003]多模态影像分割数据有着重要的研究意义和价值。但同时现有分割算法表现较差,未充分利用多模态信息,有待改进。由于强大的特征表示能力。卷积神经网络(CNN)已广泛用于图像分割任务,并取得了提升的性能。最近,视觉transformer(ViT)将自然语言处理中最强大的技术带到了计算机视觉成像领域。得益于自我关注机制,Transformer可以捕获长距离特征,这完美地符合3D体积数据。因此,它已迅速适应3D MRI序列中的分割。基于这两种流行的技术,已经为图像分割提出了许多杰出的方法,以应对以下挑战,包括位置和形态学不确定性、低对比度和注释偏差。然而,现有的工作忽略了一个重要的问题,即如何以合理的方式融合多模态图像。其中大多数融合了输入级或特征级的模态。然而,现有的研究很少考虑如何以合理的方式融合多模态图像。
[0004]准确的多模态图像分割通常需要从多模态数据中有效地学习互补信息并去除冗余信息。研发高效的多序列分割算法,可以提升分割能力。因此面向多序列分割的算法具有着重要的研究意义和广泛的应用价值。

技术实现思路

[0005]本专利技术针对现有多序列影像分割方法的不足加以改进,提出一种多层次融合的区域Transformer多模态影像分割方法,该方法先通过单模态层次编码器编码单模态特征。并采用门控机制多模态特征进行模态间交互,根据对应的重要性对当前序列进行不同程度的特征增强,门控模块加强了有益于多序列图像的表达。而后通过Transformer自注意力机制融合不同模态间的非局部信息以进一步增强多序列的特征表达,其中区域融合模块与真值计算真值区域概率图重点关注区域,抑制非重点区域特征。最后通过K

meansTransformer解码器加快网络收敛。整体网络使得多序列的特征表达得到了增强,实验结果表明,利用增强后的多序列进行分割,网络准确率得到了有效提高,证明了本方法具有良好的性能。
[0006]为实现这个目标,本专利技术的技术方案是:步骤1,通过主干编码器对m个模态进行特
征提取,得到对应模态的特征图;步骤2,通过跨模态交互模块产生的模态权重矩阵判断m个模态各自对当前模态分割的重要程度产生模态权重矩阵G,它可以被分成M个单独的{g1,...,g
m
,...,g
M
}映射,每个映射一个模式。接下来,将内容代码重新加权为F
m
=z
m
·
g
m
通过元素乘法,每个模态的初始特征图与其门控矩阵相乘,对当前模态特征进行不同程度的加强,获得模态增强特征图F
m
;步骤3,将模态增强特征图拼接特征F
r
输入到Transformer进行模态间特征融合,得到最终编码特征F
global
;步骤4,最后将编码特征输入到Kmeans

Transformer解码器,实现多序列影像分割。本专利技术提供了一种多层次融合的区域Transformer多模态影像分割方法。
[0007]有益效果
[0008]1)通过多尺度编码器:卷积Token层次化融合的交错稀疏Transformer编码器的性能优于串联叠加的方式。2)跨模态交互模块CIF以及多模态交互模块MFF:剔除多模态内在的信息冗余,同时考虑多模态内在的互补增强关系,使多模态特征融合更充分性。3)K

meansTransformer解码器:像素特征和簇中心之间的亲和对数直接对应于分割掩码的softmax对数,加快收敛速度。
附图说明
[0009]图1为本专利技术方法的网络框架示意图;
[0010]图2为本专利技术实例中的跨模态交互示意图;
[0011]图3为本专利技术提出的多模态区域融合transfomer;
具体实施方式
[0012]本专利技术基于深度学习的开源工具Pytorch实现,使用GPU处理器NVIDIA GTX3090训练网络模型。
[0013]下面结合附图和具体实施方式对本专利技术方法中各个模块构成做进一步说明,应理解文中的具体实例说明仅用于说明本专利技术,而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0014]本专利技术的网络框架组成和流程如图1所示,具体包括如下步骤:
[0015]其中,步骤1包括:将多序列F={f1,...,f
m
,...,f
M
}图片经过主干编码器模型。卷积编码器产生的每个模态内具有局部上下文的特征图,每个块包含级联的组归一化、ReLU和内核大小为3的卷积层,而第一阶段的第一卷积块仅包含卷积层。输入Token通过将输入体积分为块和线性嵌入补丁,一级一级地逐渐向下采样。多层感知器(MLP)块是用于在前两个阶段对局部特征进行编码。MLP区域的第一阶段为一个,第二阶段为两个,每个MLP由一个层规范化和两个全连接的层之间的GELU函数激活。在在第三和第四阶段,分别采用三个和四个Transformer块,以通过多头自我关注(MSA)捕获长依赖性。f
m
表示第m个模态特征提取出M个序列各自的初始模态特征图其中为该图像的第m个模态图,其中R代表特征,m代表多序列的数量,C代表每个序列特征图的通道数,H代表每个序列特征图的高度,W代表每个序列特征图的宽度。
[0016]其中,步骤2包括:将n个模态的初始模态特征图输入到多模态交互模块(CIF),CIF模块将对多序列进行模态信息筛选,将每个模态特征连接起来,然后输入到具有M输出信道的卷积层激活,该卷积核的大小为3
×
3,步长为1,边界填充为0,获得模态权重矩阵G,它可以被分成M个单独的{g1,...,gm,...,g
M
}映射,每个映射一个模式。接下来,将内容代码重新加权为F
m
=z
m
·
g
m
通过元素乘法,每个模态的初始特征图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义约束的Transformer多模态影像分割方法,其特征在于:步骤1,通过主干编码器对m个模态进行特征提取,得到对应模态的特征图;步骤2,通过跨模态交互模块产生的模态权重矩阵判断m个模态各自对当前模态分割的重要程度产生模态权重矩阵G,它可以被分成M个单独的{g1,...,g
m
,...,g
M
}映射,每个映射一个模式;接下来,将内容代码重新加权为F
m
=z
m
·
g
m
通过元素乘法,每个模态的初始特征图与其门控矩阵相乘,对当前模态特征进行不同程度的加强,获得模态增强特征图F
m
;步骤3,将模态增强特征图拼接特征F
r
输入到Transformer进行模态间特征融合,得到最终编码特征F
global
;步骤4,最后将编码特征输入到Kmeans

Transformer解码器,实现多序列影像分割。2.根据权利要求1所述的方法,其特征在于:其中,步骤1包括:将多序列F={f1,...,f
m
,...,f
M
}图片经过主干编码器模型;卷积编码器产生的每个模态内具有局部上下文的特征图,每个块包含级联的组归一化、ReLU和内核大小为3的卷积层,而第一阶段的第一卷积块仅包含卷积层;输入Token通过将输入体积分为块和线性嵌入补丁,一级一级地逐渐向下采样;多层感知器MLP块是用于在前两个阶段对局部特征进行编码;MLP区域的第一阶段为一个,第二阶段为两个,每个MLP由一个层规范化和两个全连接的层之间的GELU函数激活;在在第三和第四阶段,分别采用三个和四个Transformer块,以通过多头自我关注(MSA)捕获长依赖性;f
m
表示第m个模态特征提取出M个序列各自的初始模态特征图其中z
m
为该图像的第m个模态图,其中R代表特征,m代表多序列的数量,C代表每个序列特征图的通道数,H代表每个序列特征图的高度,W代表每个序列特征图的宽度。3.根据权利要求1所述的方法,其特征在于,步骤2包括:将n个模态的初始模态特征图输入到多模态交互模块(CIF),CIF模块将对多序列进行模态信息筛选,将每个模态特征连接起来,然后输入到具有M输出信道的卷积层激活,该卷积核的大小为3
×
3,步长为1,边界填充为0,获得模态权重矩阵G,它可以被分成M个单独的{g1,...,gm,...,g
M
}映射,每个映射一个模式;接下来,将内容代码重新加权为F
m
=z
m
·
g
m
通过元素乘法,每个模态的初始特征图与其门控矩阵相乘,得到图像M个模态增强特征图F={F1,...,F
m
,...,F
M
},F
m
∈R
C
×
H
×
W
;一共进行四个阶段的交互操作,将这些输出级联得到特征并转发到1
×
1卷积,然后输入到激活函数Leaky ReLU。4.根据权利要求1所述的方法,其特征在于,步骤3包括以下子步骤:将模态增强特征图F...

【专利技术属性】
技术研发人员:马伟陈颖
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1