一种注意力引导的可变形自注意力的语义分割方法技术

技术编号:37162804 阅读:28 留言:0更新日期:2023-04-06 22:29
本发明专利技术公开一种注意力引导的可变形自注意力的语义分割方法,使用权重分离的通道注意力模块将不同权重的注意力特征通道进行分离。使用可变形自注意力的Transformer对高权重特征图进行特征提取,通过可变形自注意力窗口模块将切分的图像块变成适应目标形状的不规则的形状,然后进行填充成正方形图像块后送入Transformer,可以使自注意力更加聚焦于特征图中更关键的区域并获取更多的特征信息。使用双权重的双注意力模块对低权重特征图进行特征提取,通过获取特征图不同尺度的空间和通道注意力并进行聚合,可以使空间和通道注意力更好地得到特征图的空间和通道信息。本发明专利技术能够让语义分割的内存和计算成本更低,提升分割精度。度。度。

【技术实现步骤摘要】
一种注意力引导的可变形自注意力的语义分割方法


[0001]本专利技术涉及图像分割
,具体涉及一种注意力引导的可变形自注意力的语义分割方法。

技术介绍

[0002]语义分割是将图像当中的每个像素分成不同的语义区域,并且依据指定类别对区域分为不同种类。语义分割作为计算机视觉的一个重要分支也是关键任务之一,其应用场景越来越广泛,如地理信息系统、无人车驾驶、医疗影像分析以及机器人领域等,重要性也随着人工智能的快速发展逐渐体现。
[0003]目前,语义分割算法模型一般都基于卷积神经网络或Transformer。基于卷积神经网络的方法虽然在语义分割领域取得了不错的成绩,但是由于卷积对局部的操作,这会导致很难学习到图像全局和长距离的语义交互信息。Transformer如今广泛应用在自然语言处理(NLP)领域上,这种模型依赖于自注意力机制,并捕捉到句子中单词之间的依赖关系。Transformer在NLP中的成功启发了计算机视觉的研究方法,研究人员将Transformer引入视觉领域,在后续的ViT、DETR、SETR分别在图像识别、目标检测、语义本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种注意力引导的可变形自注意力的语义分割方法,其特征是,包括步骤如下:步骤1、将原始图像进行预处理操作,即将原始图像的高度和宽度缩放为同一大小;步骤2、对步骤1所得到的图像依次进行两次特征提取操作,分别得到一次特征提取后的特征图和两次特征提取后的特征图;步骤3、通过生成步骤2所得到的两次特征提取后的特征图的注意力权重,并将特征图的重要特征进行强化,得到具有重要特征的权重特征图;步骤4、将步骤3所得到的具有重要特征权重的特征图中低注意力权重的特征通道像素值设为0,从而得到高权重特征图;同时将步骤3所得到的具有重要特征权重的特征图中高注意力权重的特征通道像素值设为0,从而得到低权重特征图;步骤5、将步骤4所得到的高权重特征图经过可变形自注意力Transformer操作,得到具有丰富的全局上下文信息的特征图;步骤6、将步骤4所得到的低权重特征图进行双权重的双注意力操作,得到双注意力特征图;步骤7、将步骤5所得到的具有丰富的全局上下文信息的特征图和步骤6所得到的双注意力特征图进行特征相加,得到注意力特征图;步骤8、将步骤7所得到的注意力特征图进行三次注意力图的上采样操作后,得到上采样后的注意力特征图;步骤9、将步骤8所得到的上采样后的注意力特征图进行卷积操作,得到降通道后的特征图;步骤10、将步骤9所得到的降通道后的特征图与步骤2所得到的两次特征提取后的特征图进行通道拼接操作,得到第一通道拼接特征图;步骤11、将步骤10所得到的第一通道拼接特征图进行通道拼接图的上采样操作,得到第一上采样通道拼接特征图;步骤12、将步骤11所得到的第一上采样通道拼接特征图与步骤2所得到的一次特征提取后的特征图进行通道拼接操作,得到第二通道拼接特征图;步骤13、将步骤12所得到的第二通道拼接特征图进行通道拼接图的上采样操作,得到第二上采样通道拼接特征图;步骤14、对步骤13所得到的第二上采样通道拼接特征图进行卷积操作,得到分割结果图像。2.根据权利要求1所述的一种注意力引导的可变形自注意力的语义分割方法,其特征是,步骤2中,每次特征提取操作均需要依次经过一次3
×
3的卷积操作、一次1
×
1的卷积操作、一次ReLU激活操作和一次最大池化操作来实现。3.根据权利要求1所述的一种注意力引导的可变形自注意力的语义分割方法,其特征是,步骤3的具体过程为:步骤3.1、将两次特征提取后的特征图进行全局平均池化操作,得到具有c个通道的特征图;步骤3.2、将具有c个通道的特征图进行两次全连接操作,利用通道间的相关性训练权重,得到注意力权重;其中第一次全连接操作把c个通道压缩成为c/r个通道来降低计算量,且第一次全连接操作后面跟有ReLU激活操作,第二个全连接层再将通道数恢复为c,且第二
次全连接操作后面跟有Sigmoid激活操作;其中r为压缩比例;步骤3.3、将两次特征提取后的特征图和注意力权重进行全乘操作,得到具有重要特征的权重特征图。4.根据权利要求1所述的一种注意力引导的可变形自注意力的语义分割方法,其特征是,步骤4中,将具有重要特征权重的特征图的各个特征通道的最高注意力权重和最低注意力权重相加再除以2得到平均注意力权重;若具有重要特征权重的特征图的特征通道的注意力权重小于等于平均注意力权重,则为低注意力权重的特征通道;若具有重要特征权重的特征图的特征通道的注意力权重大于平均注意力权重,则为高注意力权重的特征通道。5.根据权利要求1所述的一种注意力引导的可变形自注意力的语义分割方法,其特征是,步骤5的具体过程为:步骤5.1、先将高权重特征图切分为均匀的原始图像块;步骤5.2、对步骤5.1所得到的每个原始图像块进行可变形自注意力窗口操作,得到形变图像块;即:先对每个原始图像块进行深度卷积操作来捕获局部特征,并使用GELU激活操作和卷积操作得到每个图像块各个像素点的偏移量;再将每个原始图像块的各个轮廓参考点的坐标加上其偏移量,使得各个轮廓参考点的位置发生偏移,并以偏移后的轮廓参考点作为原始图像块的新轮廓;后使用双线性插值操作对每个原始图像块的新轮廓内的像素点进行像素值的填充,得到不规则图像块,并使用像素值为0的像素点将不规则图像块填充到与原始图像块相同的大小,得到形变图像块;步骤5.3、对步骤...

【专利技术属性】
技术研发人员:雷晓春潘奕伟江泽涛唐麟张永雅钱艺赵佳
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1