System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于transformer结构的场景图像语义分割方法技术_技高网

一种基于transformer结构的场景图像语义分割方法技术

技术编号:40003112 阅读:6 留言:0更新日期:2024-01-09 04:13
本发明专利技术公开了一种基于transformer结构的场景图像语义分割方法,本发明专利技术以视觉transformer为骨干,加入了局部到全局自注意力模块和MtFAM解码器结构,在ADE20K数据集上已经达到了目前最先进的效果。另外,考虑到视觉transformer在Cityscapes数据集上难以取得很好的效果,使用Resnet‑18作为特征提取模块,并加入了联合局部到全局特征的方法,取得了非常好的效果。所提出的局部到全局自注意力模块具有良好的可移植性,可以添加到任何当前使用卷积神经网络和视觉transformer作为主干的方法中,从而进一步提升该网络的分割性能。

【技术实现步骤摘要】

本专利技术涉及图像处理领域,特别是涉及一种基于transformer结构的场景图像语义分割方法


技术介绍

1、一般来说,深度学习中常见全卷积语义分割网络中编码器结构是通过卷积和池化等操作来提取高层语义信息,解码器结构则是通过双线性插值等方式恢复所得特征图到原始图像的分辨率,从而进行逐像素预测。然而,卷积叠加操作带来的感受野的增加并不能捕捉到远距离的上下文信息,因此,一些研究者提出了多尺度特征提取和注意力机制的方法来更有效地捕捉上下文信息。如有人通过设计一个金字塔池化模块来获取更多的上下文信息,并在解码器结构中通过特征图的连接来保留更多的空间信息。陈等人引入了多孔卷积来扩展感受野,并提出空洞空间金字塔池化模块,该模块增强了deeplabv3+网络中编码器结构的多尺度特征能力。此外,一些研究者提出了尺度注意力、通道注意力和位置注意力模块来捕获长距离上下文信息。然而,在复杂数据集中,依赖先前的方法对全局上下文信息进行建模是不够的。

2、transformer结构的出现克服了cnn上下文建模困难的问题,然而其小目标和物体边缘的分割能力较差因此需要进行改进。


技术实现思路

1、为解决上述技术问题,本专利技术提出了一种基于transformer结构的场景图像语义分割方法。

2、本专利技术的目的通过以下技术方案实现:

3、一种基于transformer结构的场景图像语义分割方法,包括如下步骤:

4、步骤一、构建transformer的编码器-解码器场景分割网络结构,所述transformer的编码器-解码器场景分割网络结构包括编码器结构、局部到全局自注意力模块和解码器结构;

5、步骤二、将原始图片输入编码器结构得到序列化的图片z;

6、步骤三、序列化的图片z输入局部到全局自注意力模块得到高级特征图;

7、步骤四、将高级特征图输入解码器结构得到的最终映射的特征图,最终映射的特征图输入到分类器中,在交叉熵损失函数的监督下,进行逐像素预测,得到最终的分割结果。

8、进一步的改进,所述步骤二的步骤如下:

9、将原始图片输入编码器结构切片形成一系列块,记为x=[x1,x2,...xi,...xn],n的值为h×w/p2,第i个块xi的大小为p*p为每个块的平面大小;h、w、c分别为原始图片的高、宽、通道数;p*p为每个块的大小;p为块的长或宽;r表示数据为实数;

10、将每个块xi压缩为一维向量,然后通过投影操作将xi转换为补丁嵌入,n个补丁嵌入连接得到的块序列码,用来表示,其大小为r(n×d),其中d表示d维向量,由于输入图像大小不一致,因此通过线性投影操作将不同长度的补丁转化为固定长度,为了在网络中插入补丁的位置信息,将位置嵌入信息添加到补丁嵌入输入中;

11、用由l层网络结构组成的transformer结构来生成序列上下文z(r(n×d)),得到序列化的图片z;transformer单层操作细节如下:

12、ai-1=msa(ln(zi-1))+zi-1

13、zi=mlp(ln(ai-1))+ai-1

14、其中ai-1表示第i层msa操作的输出,zi-1表示第i层mlp的输出,msa()表示多头自注意力机制,ln()表示层正则化,mlp()表示多层感知机;

15、序列化的图片z经过transformer结构建模上下文信息编码后得到,包含丰富的语义信息。

16、进一步的改进,所述局部到全局自注意力模块由三个矩阵组成,包括查询矩阵q、键值矩阵k和v值矩阵v,大小为r(n×d),d表示序列的长度,具体计算公式如下:

17、

18、其中t表示转置操作,softmax()表示激活函数,dk表示序列的长度。

19、进一步的改进,所述步骤三的步骤如下:设序列化的图片z的编码特征为大小为r(n×d),为一个patch的编码特征;n表示图像块的数量,d表示序列的长度,编码特征为首先经过重塑形状操作后改变原特征图维度,得到包含原始上下文信息,大小为r(h/p×w/p)的特征图,特征图通过三个空洞率分别为2、6和8的3×3卷积进行不同尺度的特征的提取,所捕获特征图记为l=1,2,3,其中l=3,xl表示第l个特征图,每个特征图xl的大小保持不变,l的值为3;批量归一化和relu激活函数添加在每次卷积操作后面;将特征图xl进行1×1卷积作为通道降维得到降维特征图,所得降维特征图通过重塑形状操作后,操作恢复到原来的序列形式,记做k表示含有不同尺度特征的特征图,并被编码为大小为n×d的嵌入,用于transformer结构计算补丁嵌入之间的上下文关系;对上下文多尺度特征建模的操作在编码器结构中是相同的,包括多头自注意力和逐点多层感知器操作。因此,含多尺度上下文信息将通过transformer结构建立,最后得到含有多尺度上下文信息的特征图;

20、含多尺度上下文信息的特征图通过重塑形状操作获得补丁嵌入,记作zmask∈rn×d;可学习的k类嵌入[cls1,cls2,...,clsk]∈rk×d被添加到掩码transformer结构中;因此,类嵌入cls与补丁嵌入相结合作为mask transformer的输入,输出则为补丁为某一像素类别的概率;mask transformer由m层组成,其中,k个掩码是通过将补丁嵌入zmask∈rn×d和类嵌入大小为rk×d的clst相乘来计算得到,的具体公式如下:

21、

22、其中令m=masks(zmask,cls)∈rn×k,m(i,j)表示补丁i属于类别j的概率,softmax函数应用于类序列。

23、然后,将每个类概率的输出重塑为二维特征图作为高级特征图。

24、进一步的改进,所述步骤四的具体步骤如下:

25、将高级特征图与具有丰富空间信息的大小为r(h/p×w/p)的特征图连接起来,经过3×3卷积后,获得从具有更多空间的低级特征到具有丰富语义信息的高级特征的相同位置特征的偏移量,用于执行特征对齐,通过学习到的偏移量来对齐底层特征,获得对齐后的底层特征图,然后对齐的底层特征图映射和mask transformer结构获得的特征图映射相加,得到最终的特征映射;

26、解码器结构得到的最终映射的特征图输入到分类器中,在交叉熵损失函数的监督下,进行逐像素预测,得到最终的分割结果

27、本专利技术的有益效果在于:

28、本专利技术以视觉transformer为骨干,加入了局部到全局自注意力模块和mtfam解码器结构,在ade20k数据集上已经达到了目前最先进的效果。另外,考虑到视觉transformer在cityscapes数据集上难以取得很好的效果,使用resnet-18作为特征提取模块,并加入了金字塔方法,取得了非常好的效果。所提出的金字塔变换器模块具有良好的可移植性,可以添加到任何当前使用卷积神经网本文档来自技高网...

【技术保护点】

1.一种基于transformer结构的场景图像语义分割方法,其特征在于,包括如下步骤:

2.的如权利要求1所述的基于transformer结构的场景图像语义分割方法,其特征在于,所述步骤二的步骤如下:

3.如权利要求2所述的基于transformer结构的场景图像语义分割方法,其特征在于,所述局部到全局自注意力模块由三个矩阵组成,包括查询矩阵Q、键值矩阵K和V值矩阵V,大小为R(N×D),D表示序列的长度,具体计算公式如下:

4.如权利要求3所述的基于transformer结构的场景图像语义分割方法,其特征在于,所述步骤三的步骤如下:设序列化的图片Z的编码特征为大小为R(N×D),为一个patch的编码特征;N表示图像块的数量,D表示序列的长度,编码特征为首先经过重塑形状操作后改变原特征图维度,得到包含原始上下文信息,大小为R(H/P×W/P)的特征图,特征图通过三个空洞率分别为2、6和8的3×3卷积进行不同尺度的特征的提取,所捕获特征图记为其中L=3,Xl表示第l个特征图,每个特征图Xl的大小保持不变,L的值为3;批量归一化和ReLU激活函数添加在每次卷积操作后面;将特征图Xl进行1×1卷积作为通道降维得到降维特征图,所得降维特征图通过重塑形状操作后,操作恢复到原来的序列形式,记做K表示含有不同尺度特征的特征图,并被编码为大小为N×D的嵌入,用于transformer结构计算补丁嵌入之间的上下文关系;对上下文多尺度特征建模的操作在编码器结构中是相同的,包括多头自注意力和逐点多层感知器操作;因此,含多尺度上下文信息将通过transformer结构建立,最后得到含有多尺度上下文信息的特征图;

5.如权利要求4所述的基于transformer结构的场景图像语义分割方法,其特征在于,所述步骤四的具体步骤如下:

...

【技术特征摘要】

1.一种基于transformer结构的场景图像语义分割方法,其特征在于,包括如下步骤:

2.的如权利要求1所述的基于transformer结构的场景图像语义分割方法,其特征在于,所述步骤二的步骤如下:

3.如权利要求2所述的基于transformer结构的场景图像语义分割方法,其特征在于,所述局部到全局自注意力模块由三个矩阵组成,包括查询矩阵q、键值矩阵k和v值矩阵v,大小为r(n×d),d表示序列的长度,具体计算公式如下:

4.如权利要求3所述的基于transformer结构的场景图像语义分割方法,其特征在于,所述步骤三的步骤如下:设序列化的图片z的编码特征为大小为r(n×d),为一个patch的编码特征;n表示图像块的数量,d表示序列的长度,编码特征为首先经过重塑形状操作后改变原特征图维度,得到包含原始上下文信息,大小为r(h/p×w/p...

【专利技术属性】
技术研发人员:余丹王汉谱刘彰玉李子龙刘晨宇李攀欧先锋
申请(专利权)人:湖南理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1