【技术实现步骤摘要】
一种基于语义约束的Transformer多模态影像分割方法
[0001]本专利技术属于计算机视觉影像领域,涉及一种基于语义约束的Transformer多模态图像分割方法。
技术介绍
[0002]多模态图像分割在图像分割起着至关重要的作用。补充信息能够以更高的准确性进行分割。磁性共振成像是定量评估的常用成像技术实践中,多种成像模式,即T1加权(T1)、T2加权(T2)、对比增强T1加权(T1c),和流体衰减反演恢复(FLAIR)图像。假如每种成像模式都提供独特的对比,多模态磁共振成像通过为分析提供丰富的补充信息。假如每种成像模式都提供独特的对比度和结构。用于分割的多模态图像的关联学习。此外,在实践中,通常使用增强图像观察。造影剂通过时产生明显的对比在正常组织与异常之间的关系。三种形态的对比增强成像方案包括静脉和动脉阶段以及静脉内造影延迟。三相图像有助于更好地分割图像,因为它们可以彼此之间良好互补信息。
[0003]多模态影像分割数据有着重要的研究意义和价值。但同时现有分割算法表现较差,未充分利用多模态信息,有待改进。由于强大的特征表示能力。卷积神经网络(CNN)已广泛用于图像分割任务,并取得了提升的性能。最近,视觉transformer(ViT)将自然语言处理中最强大的技术带到了计算机视觉成像领域。得益于自我关注机制,Transformer可以捕获长距离特征,这完美地符合3D体积数据。因此,它已迅速适应3D MRI序列中的分割。基于这两种流行的技术,已经为图像分割提出了许多杰出的方法,以应对以下挑战,包括位置和 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义约束的Transformer多模态影像分割方法,其特征在于:步骤1,通过主干编码器对m个模态进行特征提取,得到对应模态的特征图;步骤2,通过跨模态交互模块产生的模态权重矩阵判断m个模态各自对当前模态分割的重要程度产生模态权重矩阵G,它可以被分成M个单独的{g1,...,g
m
,...,g
M
}映射,每个映射一个模式;接下来,将内容代码重新加权为F
m
=z
m
·
g
m
通过元素乘法,每个模态的初始特征图与其门控矩阵相乘,对当前模态特征进行不同程度的加强,获得模态增强特征图F
m
;步骤3,将模态增强特征图拼接特征F
r
输入到Transformer进行模态间特征融合,得到最终编码特征F
global
;步骤4,最后将编码特征输入到Kmeans
‑
Transformer解码器,实现多序列影像分割。2.根据权利要求1所述的方法,其特征在于:其中,步骤1包括:将多序列F={f1,...,f
m
,...,f
M
}图片经过主干编码器模型;卷积编码器产生的每个模态内具有局部上下文的特征图,每个块包含级联的组归一化、ReLU和内核大小为3的卷积层,而第一阶段的第一卷积块仅包含卷积层;输入Token通过将输入体积分为块和线性嵌入补丁,一级一级地逐渐向下采样;多层感知器MLP块是用于在前两个阶段对局部特征进行编码;MLP区域的第一阶段为一个,第二阶段为两个,每个MLP由一个层规范化和两个全连接的层之间的GELU函数激活;在在第三和第四阶段,分别采用三个和四个Transformer块,以通过多头自我关注(MSA)捕获长依赖性;f
m
表示第m个模态特征提取出M个序列各自的初始模态特征图其中z
m
为该图像的第m个模态图,其中R代表特征,m代表多序列的数量,C代表每个序列特征图的通道数,H代表每个序列特征图的高度,W代表每个序列特征图的宽度。3.根据权利要求1所述的方法,其特征在于,步骤2包括:将n个模态的初始模态特征图输入到多模态交互模块(CIF),CIF模块将对多序列进行模态信息筛选,将每个模态特征连接起来,然后输入到具有M输出信道的卷积层激活,该卷积核的大小为3
×
3,步长为1,边界填充为0,获得模态权重矩阵G,它可以被分成M个单独的{g1,...,gm,...,g
M
}映射,每个映射一个模式;接下来,将内容代码重新加权为F
m
=z
m
·
g
m
通过元素乘法,每个模态的初始特征图与其门控矩阵相乘,得到图像M个模态增强特征图F={F1,...,F
m
,...,F
M
},F
m
∈R
C
×
H
×
W
;一共进行四个阶段的交互操作,将这些输出级联得到特征并转发到1
×
1卷积,然后输入到激活函数Leaky ReLU。4.根据权利要求1所述的方法,其特征在于,步骤3包括以下子步骤:将模态增强特征图F...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。