一种基于Transformer架构的图像语义分割方法技术

技术编号:35992169 阅读:14 留言:0更新日期:2022-12-17 23:07
一种基于Transformer架构的图像语义分割方法属于医学图像分割技术领域。本发明专利技术提供一种带有移动窗口的分层Swin Transformer编码器来提取图像上下文特征的方法。首先图像块被输入到基于Transformer的编码器

【技术实现步骤摘要】
一种基于Transformer架构的图像语义分割方法


[0001]本专利技术属于医学图像分割
,具体涉及一种基于Transformer架构的图像语义分割方法。

技术介绍

[0002]语义分割是像素级的图像理解,即对图像中的每一个像素标注所属的类别,任务是将图像分割成若干个有意义的目标,并为各个目标分配指定类型标签。语义分割对图像中的每一个像素标注所属的类别,是计算机视觉领域中场景解析和行为识别的关键任务。因此,得到一个实用性好、准确率高的图像语义分割模型是非常具有挑战性的工作。
[0003]与分类不同的是,语义分割需要判断图像每个像素点的类别,进行精确分割。由于CNN在进行convolution和pooling过程中丢失了图像细节,即feature map size逐渐变小,所以不能很好地指出物体的具体轮廓、指出每个像素具体属于哪个物体,无法做到精确的分割。针对此问题,FCN采用反卷积对最后一个卷积层的feature map进行上采样,使其恢复到输入图像相同的尺寸,从而对每个像素都产生了预测,即对图像进行像素级的分类。但FCN由于没有充分考虑像素与像素之间的空间关系,得到的结果仍不够精细。对此,UNet采用“编码器

解码器”结构,在上采样的过程中通过特征的拼接实现对下采样时损失的边缘特征的找回。UNet凭借其优雅的结构设计,在各种医学影像应用中取得了巨大的成功。按照这一技术路线,已经开发了许多算法,如Res

UNet、UNet++和UNet3+,用于各种医学成像方式的图像和物体分割。这些方法在心脏分割、器官分割和病变分割中的出色表现证明了CNN具有较强的识别特征学习能力。UNet++模型针对UNet模型层次信息跨度太大的问题,设计了一个具有嵌套和密集跳跃连接的体系结构,旨在减少编码器和解码器之间的语义差距,使得特征融合更充分、拼接更全面。
[0004]另一方面,自然语言处理(NLP)中的网络架构的演化已经走上了不同的道路,目前流行的架构是Transformer。Transformer是为序列建模和转换任务而设计的,它的显著之处在于对数据中的远程依赖性进行建模。它在语言领域的巨大成功促使研究人员对其在计算机视觉中的适应性进行了研究,最近在某些任务中,特别是图像分类和联合视觉语言建模显示出了良好的结果。

技术实现思路

[0005]本专利技术要解决的技术问题是,提供一种带有移动窗口的分层Swin Transformer编码器来提取图像上下文特征的方法。首先图像块被输入到基于Transformer的编码器

解码器架构中,其中移动窗口机制的设计使得特征包含信息更全面。而UNet++模型中嵌套和密集的跳跃连接能够充分提取上下文特征,使得特征融合更充分。
[0006]Swin

UNet++是一种基于UNet++的用于医学图像分割的框架方法。在本文中试图扩展Transformer的适用性,使其可以作为计算机视觉的通用主干。而将其在语言领域的高表现转移到视觉领域的重大挑战可以用两种模式之间的差异来解释,其中一个区别就是规
模。为减少序列的长度,将图像划分为窗口以应对同一张图像里物体尺寸不同带来的挑战。本专利技术应用了一个通用的Transformer骨干,称为Swin Transformer,它构造层次特征映射,并具有与图像大小线性的计算复杂度。Swin Transformer通过从小的图像块开始,并逐渐在较深的Transformer层中合并相邻的patch来构造层次化表示。通过这些分层特征映射,Swin Transformer可以方便地基于UNet等模型进行密集预测。使用带有移动窗口机制的Swin Transformer,在图像的非重叠窗口内局部计算自注意力,更好地捕获图像中上下文语义信息,并且每个窗口中的patch数量是固定的,因此复杂度与图像大小成线性关系。这些优点使Swin Transformer适合作为各种视觉任务的通用主干。
[0007]本专利技术的可行性分析:常用的卷积可以通过局部感知进行特征提取,通过不同大小的卷积核提取多尺度特征。使用SwinTransformer则使用局部窗口自注意力机制对图像的子区域划分进行特征提取,具有与图像大小线性的计算复杂度。随着窗口大小的变化,在局部小窗口内计算自注意力以构造层次特征映射;加之移动窗口机制,具体来说,它在连续的自我注意层之间移动窗口分区,使得不同窗口的像素之间也能交互信息,从而更好地理解上下文,显著地增强了建模能力,实现全局建模。与此同时,在构造SwinTransformer总体结构时,在每个阶段进行特征融合可以实现和UNet在下采样过程中一样的层次特征变化。
[0008]基于以上分析,本专利技术采用以下技术方案:受Swin Transformer的启发,Swin

UNet++方法在这项工作中利用Transformer进行2D医学图像分割。Swin

UNet是第一个纯粹基于Transformer的u型架构,它由编码器、瓶颈、解码器和跳跃连接组成。编码器、瓶颈和解码器都是基于Swin Transformer模块构建的。将输入的医学图像分割为不重叠的图像块,每个图像块被视为一个单元,并输入到基于Transformer的编码器学习深度特征表示。然后利用带patch扩展层的解码器对提取的上下文特征进行上采样,在上采样过程中通过跳跃连接与编码器的多尺度特征进行融合,恢复特征图的空间分辨率,进一步进行分割预测。在多器官和心脏分割数据集上的大量实验表明,该方法具有良好的分割精度和鲁棒的泛化能力。在此思路的基础上,将Swin Transformer模块应用于UNet++模型,该方法相比于Swin

UNet,梯度下降更快且精度更高。
[0009]参照图1Swin

UNet++包括以下步骤:
[0010]该网络由预处理模块、Swin

UNet++模块以及恢复模块组成。
[0011]步骤1、预处理模块主要包括Patch Partition和Linear Embedding。
[0012]将初始输入的图像缩放,调整后的图像尺寸记为W
×
H,其中W表示图像的宽,H表示图像的高,W
×
H描述图像的分辨率,即像素点的个数。接着对输入图像进行数据增强,以增加数据多样性。Patch Partition的主要作用是将图像的尺寸压缩。Linear Embedding则利用线性嵌入层将投影的特征维转化为任意维C。
[0013]步骤2、Swin

UNet++模块的输入数据是步骤1输出的特征图。主要通过多个下采样过程对图像特征进行提取,在上采样过程中借助密集的跳跃连接对多个层次的特征进行充分融合。
[0014]采用UNet++结构与Transformer结合的方法,可充分发挥两者的优势。使用SwinTransformer块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer架构的图像语义分割方法,其特征在于:步骤1、预处理模块;将初始输入的图像缩放,调整后的图像尺寸记为W
×
H,其中W表示图像的宽,H表示图像的高,W
×
H描述图像的分辨率,即像素点的个数;接着对输入图像进行数据增强,以增加数据多样性;Patch Partition将图像的尺寸压缩;Linear Embedding则利用线性嵌入层将投影的特征维转化为任意维C;步骤2、Swin

UNet++模块;基于SwinTransformer块对步骤1输出的特征图进行学习;使用patch合并层和Swin Transformer块完成下采样,使用patch扩展层和Swin Transformer块完成上采样;下采样过程中,通过多个Swin Transformer块和patch合并层,生成分层特征表示;上采样过程则包括多个SwinTransformer块和patch扩展层;通过跳跃连接将提取的上下文特征与编码器的多尺度特征融合,以弥补下采样造成的空间信息损失;步骤3、恢复模块;对步骤2中Swin

UNet++模块输出的特征图进行像素级的预测;利用patch扩展层恢复图像特征尺寸,将特征映射的分辨率恢复到输入分辨率W
×
H;然后对这些上采样的特征进行线性投影,映射到特定的维度,从而得到像素级分类预测的结果。2.根据权利要求1所述的一种基于Transformer架构的图像语义分割方法,其特征在于:步骤1.1图像预处理该预处理模块的输入为原始图像,将其尺寸缩放为W
×
H;其中H表示图像的高,W表示图像的宽;随机地对图像翻转和旋转;步骤1.2图像的划分为了将输入信息转化为序列嵌入,Patch Partition层主要作用为将经预处理的图像进行尺寸压缩,从而减小序列的长度;将医学图像的像素点划分成大小为N
×
N、互不重叠的patch;通过这种划分方法,每个patch窗口被视为一个“令牌”,其特征被设置为原始像素RGB值的拼接,即为3,因此每个patch的特征维数变为N
×
N
×
3;N设为4,Patch Partition为卷积运算,卷积核大小为4
×
4,卷积步长为4;步骤1.3利用线性嵌入层进行特征映射,将投影的特征维转化为任意维C,从而得到特征图;步骤2、Swin

UNet++模块通过多个下采样过程和上采样过程对图像特征进行提取并对多个层次的特征进行融合;该模块的输入数据是步骤1输出的特征图,大小为W/4
×
H/4
×
C;该模块的输出是提取后的特征图,大小为W/4
×
H/4
×
C;下采样过程由编码器实现;编码器由SwinBlock层和patch合并层交替相连;编码器的输入数据是步骤1输出的特征图W/4
×
H/4
×
C;编码器的输出是提取的特征图W/32
×
H/32
×
8C;编码器结构依次为:输入数据

第一个Swin Block层

patch合并层

第二个Swin Block层

patch合并层

第三个Swin Block层

patch合并层

瓶颈层其中,Swin Block层由单个Swin Transformer模块连接构成;patch合并层在patch的行和列方向上间隔一定距离选取元素,将各个部分拼接在一起作为一个张量,最后展开,此时通过通道归一化和全连接层调整通道维数;通过这种处理,减少特征分辨率并增加特征的维数,从而实现降采样;编码器中的最后一个patch合并层与瓶颈层中的第一个Swin Transformer Block相连;瓶颈层由2个Swin Transformer Block依次连接组成,瓶颈层的
两个Swin Transformer Block分别利用通道归一化操作和全连接层连接编码器中最后一个patch合并层的输出和上采样阶段最底层patch扩展层的输入;即上采样阶段最底层的patch扩展层与瓶颈层中的第二个Swin Transformer Block连接;在编码器的基础上,经过逐层次的上采样和特征融合充分理解图像的上下文信息;特征融合由多个跳跃连接和patch扩展层实现;通过跳跃连接将同一密集块上一个Swin Block层的输出与下一个密集块对应的上采样输出融合在一起;patch扩展层首先通过一个全连接层扩展通道数,利用rearrange operation将相邻维度的特征图重组成更大的特征图,再进行LayerNorm通道归一化处理,从而实现上采样;用B
i,j
表示经SwinBlock层B
i,j
进行特征学习的输出,其中i索引编码器的下采样层,j沿跳跃路径索引SwinBlock层,设置每个Swin Block层中包含两个Swin Transformer Block;Swin

UNet++架构进行特征融合的步骤如下:1).将B
0,0
与B
1,0
对应的上采样输出融合,得到B
0,1
;2).在1)之后,将B
1,0
和B
2,0
对应的上采样输出融合得到B
1,1
;B
1,1
的上采样输出与B
0,0
、B
0,1
通过跳跃连接融合得到B
0,2
;3).经过逐层次的上采样和特征融合,依次得到B
2,1
、B

【专利技术属性】
技术研发人员:刘博李金书王慧娜
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1