当前位置: 首页 > 专利查询>常州大学专利>正文

一种基于CNN-Transformer并行融合方法技术

技术编号:37472961 阅读:25 留言:0更新日期:2023-05-06 09:56
本发明专利技术涉及图像处理技术领域,尤其涉及一种基于CNN

【技术实现步骤摘要】
一种基于CNN

Transformer并行融合方法


[0001]本专利技术涉及图像处理
,尤其涉及一种基于CNN

Transformer并行融合方法。

技术介绍

[0002]医学图像分割的目的是使图像中解剖或病理结构的变化更加清晰,在各种计算机辅助诊断任务中发挥着关键作用;例如:病变轮廓,手术计划和三维重建等。医学图像分割有助于检测和定位图像中病变的边界,从而有助于快速识别肿瘤和癌变区域的潜在存在,这将有可能帮助临床医生节省诊断时间,提高发现肿瘤的可能性。
[0003]传统上,医学图像分割算法通常被构建为对称的自顶向下编码器

解码器结构,U

Net已经成为不同的变体中的选择基准,并取得了巨大的成功。U

Net由卷积组成,而卷积的优点是具有局部连接、权值共享两种特性的卷积算子,从而使得模型具有等变性。虽然这些特性有助于开发高效和通用的医学成像解决方案,但它们仍然需要额外的改进,以便真正帮助临床医生进行早期疾病诊断。
[0004]目前已经提出了各种在CNN中添加全局上下文的改进方法,比较有影响的方法有引入注意机制以及扩展卷积核以增加核的感受域。然而,卷积层中感受野的局部性仍然将它们的学习能力限制在相对较小的区域,阻止了网络利用来自输入图像的长距离语义依赖性,无法充分探索对象级信息,尤其是对于在器官的纹理、形状和大小方面通常产生较弱的性能,表现出较大的患者间差异。
[0005]ViT在自然图像的成功激起了医学界的极大兴趣,研究者们探讨了在医学图像分割背景下Transformer的潜力,减轻CNN固有的感受野偏差,使其适用于医学成像应用。然而,基于Transformer的模型的性能在很大程度上取决于预训练,它们的实验也验证了这一观点,同样预训练也会帮助医学图像分割。但基于Transformer的模型的预训练过程带来了两个问题;首先,预训练过程通常会在时间或计算消耗方面产生高计算复杂性;其次,对于医学图像,用于预训练的完整且公认的大型数据集很少(相比之下,ImageNet可用于自然场景图像),因为医学图像并不总是可用的,需要专业人士花费大量时间进行注释。并且自然图像和医学图像之间的领域鸿沟使得医学图像分割模型很难直接使用现有的大型自然图像数据集,此外在不同类型的医学图像也存在一些开放的挑战,例如,由于CT和MRI图像之间存在较大的区域差距,在CT数据集上预先训练的Swin UNETR在直接应用于其他医学成像模式(如MRI)时表现不佳。
[0006]充分挖掘CNN和Transformer各自的优点,有效地整合图像中粗粒度和细粒度信息的深度学习模型能够达到更好的分割精度,成为研究者们热衷的研究方向。例如,TransUNet在由CNN组成的编码器和解码器之间引入了Transformer;UCTransNet通过Transformer桥接从编码器到解码器的所有阶段,而不只是相邻阶段,捕获了多尺度的全局依赖性;MT

Unet交织Transformer和CNN块到一个混合模型,其中卷积可以编码精确的空间信息和自我注意可以捕获全局上下文。这些架构从宏观上实现了Transformer和CNN的串行
组合;然而,在串行组合中,若只是采用堆叠的方式融合粗粒度和细粒度特征,会导致这两类网络的融合效果降低,不能充分发挥其互补的潜力。

技术实现思路

[0007]针对现有算法的不足,本专利技术通过充分挖掘CNN和Transformer各自的优点,提出基于医学图像分割的CNN和Transformer并行融合网络(简称为PCTNet),进而整合图像中粗粒度和细粒度信息。
[0008]本专利技术所采用的技术方案是:一种基于CNN

Transformer并行融合方法,包括以下步骤:
[0009]步骤一、通过PCTNet网络的编码器提取待分割的医学图像特征;
[0010]进一步的,PCTNet网络的编码器由CNN

encoder和PaFusion

encoder组成,将待分割医学图像输入CNN

encoder和PaFusion

encoder;PaFusion

encoder由两个分支组成;CNN分支感受野逐渐增大,特征编码从局部到全局;Transformer分支,则通过全局自注意力和CNN分支中同等分辨率大小的特征图组成的并行融合模块,最大限度地保留了局部特征和全局特征。
[0011]进一步的,CNN

encoder包含一个Stem块和两个Local layer层;给定高度为H、宽度为W的输入图像,由CNN

encoder F
CNN
(
·
)生成的特征图表示为:
[0012][0013]其中,L表示特征层数,Θ表示CNN

encoder的参数,C表示通道的数量,F
lCNN
为CNN

encoder生成第l层特征图函数。
[0014]进一步的,Stem块由两个3
×
3卷积组成,每个卷积块后面是BN模块和GELU激活函数,用于提取初始局部特征。
[0015]进一步的,Local layer层由三层卷积块和一层SE模块组成,两个Local layer层中SEConv block的个数分别是2和6。
[0016]进一步的,PaFusion

encoder由Parallel fusion Layer和Patch Embedding组成,Patch Embedding通过卷积将输入图像均匀划分为块;Parallel fusion Layer包括CNN分支和Transform分支,给定高度为H、宽度为W的输入图像,由PaFusion

encoder的F
PaFusiom
(
·
)生成的特征图表示为:
[0017][0018]其中,L表示特征层数,Θ表示CNN

encoder的参数,C表示通道数量,为PaFusion

encoder生成第l层特征图函数;
[0019]Parallel fusion Layer存在两个输入F
t
、F
c
,F
t
是Transformer分支上的输入,F
c
是与F
t
相同分辨率的CNN分支上的输入。
[0020]进一步的,并行融合模块对图像提取图像特征的过程包括:
[0021](1)、F
c

是与F
t
分辨率和通道数一致CNN分支上提取特征后形成的特征图,F
c

的公式为:
...

【技术保护点】

【技术特征摘要】
1.一种基于CNN

Transformer并行融合方法,其特征在于,包括以下步骤:步骤一、通过PCTNet网络的编码器提取待分割的医学图像特征;步骤二、对编码器生成图像特征输入解码器中进行还原并输出分割特征图。2.根据权利要求1所述的基于CNN

Transformer并行融合方法,其特征在于:PCTNet网络的编码器由CNN

encoder和PaFusion

encoder组成,将待分割医学图像输入CNN

encoder和PaFusion

encoder;PaFusion

encoder由两个分支组成;CNN分支感受野逐渐增大,特征编码从局部到全局;Transformer分支,则通过全局自注意力和CNN分支中同等分辨率大小的特征图组成的并行融合模块,最大限度地保留了局部特征和全局特征。3.根据权利要求2所述的基于CNN

Transformer并行融合方法,其特征在于,CNN

encoder包含一个Stem块和两个Local layer层;给定高度为H、宽度为W的输入图像,由CNN

encoder F
CNN
(
·
)生成的特征图表示为:其中,L表示特征层数,Θ表示CNN

encoder的参数,C表示通道的数量,F
lCNN
为CNN

encoder生成第l层特征图函数。4.根据权利要求3所述的基于CNN

Transformer并行融合方法,其特征在于:Stem块由两个3
×
3卷积组成,每个卷积块后面是BN模块和GELU激活函数,用于提取初始局部特征。5.根据权利要求3所述的基于CNN

Transformer并行融合方法,其特征在于:Local layer层由三层卷积块和一层SE模块组成,两个Local layer层中SEConv block的个数分别是2和6。6.根据权利要求2所述的基于CNN

Transformer并行融合方法,其特征在于:PaFusion

encoder由Parallel fusion Layer和Patch Embedding组成,Patch Embedding通过卷积将输入图像均匀划分为块;Parallel fusion Layer包括CNN分支和Transform分支,给定高度为H、宽度为W的输入图像,由PaFusion

encoder的F
PaFusiom
(
·
)生成的特征图表示为:其中,L表示特征层数,Θ表示CNN

encoder的参数,C表示通道数量,F
lPaFusion
为PaFusion

encoder生成第l层特征图函数;Parallel fusion Layer存在两个输入F
t
、F
c
,F
t
...

【专利技术属性】
技术研发人员:袁宝华陈佳璐李宁肖德豪汤瑞
申请(专利权)人:常州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1