一种基于Transformer架构的图像语义分割方法技术

技术编号：35992169 阅读：14 留言：0更新日期：2022-12-17 23:07

一种基于Transformer架构的图像语义分割方法属于医学图像分割技术领域。本发明专利技术提供一种带有移动窗口的分层Swin Transformer编码器来提取图像上下文特征的方法。首先图像块被输入到基于Transformer的编码器

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Transformer架构的图像语义分割方法

[0001]本专利技术属于医学图像分割
，具体涉及一种基于Transformer架构的图像语义分割方法。

技术介绍

[0002]语义分割是像素级的图像理解，即对图像中的每一个像素标注所属的类别，任务是将图像分割成若干个有意义的目标，并为各个目标分配指定类型标签。语义分割对图像中的每一个像素标注所属的类别，是计算机视觉领域中场景解析和行为识别的关键任务。因此，得到一个实用性好、准确率高的图像语义分割模型是非常具有挑战性的工作。
[0003]与分类不同的是，语义分割需要判断图像每个像素点的类别，进行精确分割。由于CNN在进行convolution和pooling过程中丢失了图像细节，即feature map size逐渐变小，所以不能很好地指出物体的具体轮廓、指出每个像素具体属于哪个物体，无法做到精确的分割。针对此问题，FCN采用反卷积对最后一个卷积层的feature map进行上采样，使其恢复到输入图像相同的尺寸，从而对每个像素都产生了预测，即对图像进行像素级的分类。但FCN由于没有充分考虑像素与像素之间的空间关系，得到的结果仍不够精细。对此，UNet采用“编码器
‑
解码器”结构，在上采样的过程中通过特征的拼接实现对下采样时损失的边缘特征的找回。UNet凭借其优雅的结构设计，在各种医学影像应用中取得了巨大的成功。按照这一技术路线，已经开发了许多算法，如Res
‑
UNet、UNet++和UNet3+，用于各种医学成像方...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer架构的图像语义分割方法，其特征在于：步骤1、预处理模块；将初始输入的图像缩放，调整后的图像尺寸记为W
×
H,其中W表示图像的宽，H表示图像的高，W
×
H描述图像的分辨率，即像素点的个数；接着对输入图像进行数据增强，以增加数据多样性；Patch Partition将图像的尺寸压缩；Linear Embedding则利用线性嵌入层将投影的特征维转化为任意维C；步骤2、Swin
‑
UNet++模块；基于SwinTransformer块对步骤1输出的特征图进行学习；使用patch合并层和Swin Transformer块完成下采样，使用patch扩展层和Swin Transformer块完成上采样；下采样过程中，通过多个Swin Transformer块和patch合并层，生成分层特征表示；上采样过程则包括多个SwinTransformer块和patch扩展层；通过跳跃连接将提取的上下文特征与编码器的多尺度特征融合，以弥补下采样造成的空间信息损失；步骤3、恢复模块；对步骤2中Swin
‑
UNet++模块输出的特征图进行像素级的预测；利用patch扩展层恢复图像特征尺寸，将特征映射的分辨率恢复到输入分辨率W
×
H；然后对这些上采样的特征进行线性投影，映射到特定的维度，从而得到像素级分类预测的结果。2.根据权利要求1所述的一种基于Transformer架构的图像语义分割方法，其特征在于：步骤1.1图像预处理该预处理模块的输入为原始图像，将其尺寸缩放为W
×
H；其中H表示图像的高，W表示图像的宽；随机地对图像翻转和旋转；步骤1.2图像的划分为了将输入信息转化为序列嵌入，Patch Partition层主要作用为将经预处理的图像进行尺寸压缩，从而减小序列的长度；将医学图像的像素点划分成大小为N
×
N、互不重叠的patch；通过这种划分方法，每个patch窗口被视为一个“令牌”，其特征被设置为原始像素RGB值的拼接,即为3，因此每个patch的特征维数变为N
×
N
×
3；N设为4，Patch Partition为卷积运算，卷积核大小为4
×
4，卷积步长为4；步骤1.3利用线性嵌入层进行特征映射，将投影的特征维转化为任意维C，从而得到特征图；步骤2、Swin
‑
UNet++模块通过多个下采样过程和上采样过程对图像特征进行提取并对多个层次的特征进行融合；该模块的输入数据是步骤1输出的特征图，大小为W/4
×
H/4
×
C；该模块的输出是提取后的特征图，大小为W/4
×
H/4
×
C；下采样过程由编码器实现；编码器由SwinBlock层和patch合并层交替相连；编码器的输入数据是步骤1输出的特征图W/4
×
H/4
×
C；编码器的输出是提取的特征图W/32
×
H/32
×
8C；编码器结构依次为：输入数据
→
第一个Swin Block层
→
patch合并层
→
第二个Swin Block层
→
patch合并层
→
第三个Swin Block层
→
patch合并层
→
瓶颈层其中，Swin Block层由单个Swin Transformer模块连接构成；patch合并层在patch的行和列方向上间隔一定距离选取元素，将各个部分拼接在一起作为一个张量，最后展开，此时通过通道归一化和全连接层调整通道维数；通过这种处理，减少特征分辨率并增加特征的维数，从而实现降采样；编码器中的最后一个patch合并层与瓶颈层中的第一个Swin Transformer Block相连；瓶颈层由2个Swin Transformer Block依次连接组成，瓶颈层的
两个Swin Transformer Block分别利用通道归一化操作和全连接层连接编码器中最后一个patch合并层的输出和上采样阶段最底层patch扩展层的输入；即上采样阶段最底层的patch扩展层与瓶颈层中的第二个Swin Transformer Block连接；在编码器的基础上，经过逐层次的上采样和特征融合充分理解图像的上下文信息；特征融合由多个跳跃连接和patch扩展层实现；通过跳跃连接将同一密集块上一个Swin Block层的输出与下一个密集块对应的上采样输出融合在一起；patch扩展层首先通过一个全连接层扩展通道数，利用rearrange operation将相邻维度的特征图重组成更大的特征图，再进行LayerNorm通道归一化处理，从而实现上采样；用B
i,j
表示经SwinBlock层B
i,j
进行特征学习的输出，其中i索引编码器的下采样层，j沿跳跃路径索引SwinBlock层，设置每个Swin Block层中包含两个Swin Transformer Block；Swin
‑
UNet++架构进行特征融合的步骤如下：1).将B
0,0
与B
1,0
对应的上采样输出融合，得到B
0,1
；2).在1)之后，将B
1,0
和B
2,0
对应的上采样输出融合得到B
1，1
；B
1,1
的上采样输出与B
0,0
、B
0,1
通过跳跃连接融合得到B
0,2
；3).经过逐层次的上采样和特征融合，依次得到B
2,1
、B

【专利技术属性】
技术研发人员：刘博，李金书，王慧娜，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人