基于分组注意力融合的伪装物体分割方法技术

技术编号:38604319 阅读:14 留言:0更新日期:2023-08-26 23:37
本发明专利技术公开了基于分组注意力融合的伪装物体分割方法,步骤1,对输入图像利用图像特征提取模块进行特征提取;步骤2,构建分组注意力模块;步骤3,构建多尺度特征融合模块;利用本发明专利技术的方法,通过在多个公开数据集上进行评估,实验结果表明,本发明专利技术可以有效的分割复杂环境中的伪装物体,大幅提高了伪装目标分割的精度和鲁棒性,为伪装物体分割在各个领域的进一步应用打下了坚实的基础。一步应用打下了坚实的基础。一步应用打下了坚实的基础。

【技术实现步骤摘要】
基于分组注意力融合的伪装物体分割方法


[0001]本专利技术属于计算机视觉及人工智能
,涉及基于分组注意力融合的伪装物体分割方法。

技术介绍

[0002]伪装物体分割,是指识别出图像中与背景高度相似的对象。
[0003]近年来,在目标分割领域,伪装目标分割受到越来越多的研究者的关注。伪装一词,来源于生物学,是一种强大而巧妙的隐藏自身的方式。伪装物体一般通过颜色变化、环境模仿或部分遮挡来融入周围环境,自然界中的许多动物都利用这种方式来躲避天敌或捕食猎物。由于具备识别伪装对象的能力,所以伪装物体分割算法在很多领域都有广泛的应用前景,如物种发现、息肉分割、肺部感染分割、灾害搜救等。
[0004]但与此同时,目标和背景的高度相似性也对伪装物体分割任务带来了更大的挑战。不同于一般的目标分割算法,伪装目标分割需要网络具备更大的全局感知能力、捕获更多的高级语义信息才能准确的将目标从背景中分离出来。现有的方法大多基于CNN网络提取特征,借助边界或纹理线索来增强模型感知能力,在一些复杂场景下,无法准确的分割伪装目标。
[0005]我们采用Transformer框架作为提取特征的主干网络,借助自注意力机制建立全局感知能力;然后我们设计了一个分组融合模块,借助分组注意力机制,进一步挖掘高级语义特征,增强网络对于前景和背景的辨别能力;最后构建多尺度特征融合模块,由粗到细逐级恢复高分辨的预测图像。

技术实现思路

[0006]本专利技术的目的是提供基于分组注意力融合的伪装物体分割方法,实现对伪装物体的准确分割;大幅提高了网络对图像前景和背景的辨别能力,解决了现有方法在复杂场景下难以分割伪装物体的问题。
[0007]本专利技术所采用的技术方案是,基于分组注意力融合的伪装物体分割方法,具体按以下步骤实施:
[0008]步骤1,对输入图像利用图像特征提取模块进行特征提取;
[0009]步骤2,构建分组注意力模块;
[0010]步骤3,构建多尺度特征融合模块。
[0011]本专利技术的特点还在于:
[0012]其中步骤1具体为图像特征提取模块采用带金字塔结构的Transformer模块对输入图像进行特征提取;
[0013]其中步骤1具体按以下步骤实施:
[0014]步骤1.1,输入图像首先经过第一个Transformer模块,对待检测图像进行处理,输出第一特征图;
[0015]步骤1.2,第一特征图经过第二个Transformer模块,对特征进行处理,操作同上,输出第二特征图F2;
[0016]步骤1.3,第二特征图经过第三个Transformer模块,对特征进行处理,操作同上,输出第三特征图F3;
[0017]步骤1.4,第四特征图经过第四个Transformer模块,对特征进行处理,操作同上,输出第四特征图F4;
[0018]其中步骤1.1具体按以下步骤实施:
[0019]步骤1.1.1,输入图像首先经过PatchEmbedding模块,对图像进行划分,将输入图像H
×
W
×
3经过划分后为其中H和W为图像的宽和高,P
i
和C
i
为超参数,分别代表划分的块数和输出的通道数,此处的划分采用重叠交叉划分,增强块与块之间的交互,使网络捕获更多的全局信息;
[0020]步骤1.1.2,处理后的特征,经过带金字塔池化的自注意力机制模块,公式表示如下:
[0021][0022]式中,分别代表自注意力机制中的quary、经过池化操作的key和经过池化操作的value,d
head
代表多头注意力的数量,Softmax()指激活函数;
[0023]步骤1.1.3,经过自注意力后的特征,再经过一个前馈神经网络处理,使用LaryNorm做层归一化处理,然后使用线性映射将特征放大四倍,再使用线性映射将特征缩小四倍,最终输出第一特征图F1;
[0024]其中步骤2构建分组注意力模块具体按以下步骤实施:
[0025]步骤2.1,对主干网络提取到的四层特征分别进行降维操作;
[0026]步骤2.2,对降维后的四组特征进行交叉融合;
[0027]步骤2.3,对交叉融合后的四组特征记作f
′1,f
′2,f
′3,f
′4,分别进行分组注意力融合;
[0028]其中步骤2.1具体按以下步骤实施:
[0029]步骤2.1.1,对四层特征分别做卷积核为3x3的卷积操作,输出通道数设置为64,使用BatchNorm进行归一化,最后使用ReLU操作做激活处理;
[0030]步骤2.1.2,对处理后的四层特征分别做3x3的卷积操作,输入通道和输出通道设置一致,均为64,记作f1,f2,f2,f4;
[0031]其中步骤2.2具体按以下步骤实施:
[0032]步骤2.2.1,第四层特征由于没有上层特征,所以对其仅仅进行两层3x3的卷积操作,通道数保持一致;
[0033]步骤2.2.2,将处理后的第四组特征按通道拆分为N组,将未处理的第三组特征按通道数拆分为N组,将第四组上采样后进行交叉融合,融合后经过一个3x3的卷积模块进行融合,输入通道数为128,输出通道数为64;
[0034]步骤2.2.3,将处理后的第三组特征按通道拆分为N组,将未处理的第二组特征按
通道数拆分为N组,将第三组上采样后进行交叉融合,融合后经过一个3x3的卷积模块进行融合,输入通道数为128,输出通道数为64;
[0035]步骤2.2.4,将处理后的第二组特征按通道拆分为N组,将未处理的第一组特征按通道数拆分为N组,将第二组上采样后进行交叉融合,融合后经过一个3x3的卷积模块进行融合,输入通道数为128,输出通道数为64;
[0036]其中步骤2.3具体按以下步骤实施:
[0037]步骤2.3.1,对交叉融合后的第四组特征,首先按通道数拆分为M组,记作G
i
,i∈{1,...,M},首先对G1进行升维操作,使用3x3卷积将其通道数扩充为原来的3倍,记作G
1j
,j∈{1,2,3};
[0038]步骤2.3.2,将G
1j
按通道数拆分为3组,取第一组G
11
与G2进行Cat操作;之后G2同样进行通道数扩充,得到G
2j
,j∈{1,2,3};对于G3操作同上,最终共生成M组特征,每一组特征都又被按通道数拆分为三组;
[0039]步骤2.3.3,将M组特征每一组中的第一组G
i1
,一起Cat后进行卷积操作,输出通道设置为64;
[0040]步骤2.3.4,将M组特征每一组中的第三组G
i3
,一起Cat后进行卷积操作,输出通道设置为1;
[0041]步骤2.3.5,最终将得到的通道数为1的特征与通道数为64的特征逐元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于分组注意力融合的伪装物体分割方法,其特征在于,具体按以下步骤实施:步骤1,对输入图像利用图像特征提取模块进行特征提取;步骤2,构建分组注意力模块;步骤3,构建多尺度特征融合模块。2.根据权利要求1所述的基于分组注意力融合的伪装物体分割方法,其特征在于,所述步骤1具体为图像特征提取模块采用带金字塔结构的Transformer模块对输入图像进行特征提取。3.根据权利要求2所述的基于分组注意力融合的伪装物体分割方法,其特征在于,所述步骤1具体按以下步骤实施:步骤1.1,输入图像首先经过第一个Transformer模块,对待检测图像进行处理,输出第一特征图;步骤1.2,第一特征图经过第二个Transformer模块,对特征进行处理,操作同上,输出第二特征图F2;步骤1.3,第二特征图经过第三个Transformer模块,对特征进行处理,操作同上,输出第三特征图F3;步骤1.4,第四特征图经过第四个Transformer模块,对特征进行处理,操作同上,输出第四特征图F4。4.根据权利要求3所述的基于分组注意力融合的伪装物体分割方法,其特征在于,所述步骤1.1具体按以下步骤实施:步骤1.1.1,输入图像首先经过PatchEmbedding模块,对图像进行划分,将输入图像H
×
W
×
3经过划分后为其中H和W为图像的宽和高,P
i
和C
i
为超参数,分别代表划分的块数和输出的通道数,此处的划分采用重叠交叉划分,增强块与块之间的交互,使网络捕获更多的全局信息;步骤1.1.2,处理后的特征,经过带金字塔池化的自注意力机制模块,公式表示如下:式中,分别代表自注意力机制中的quary、经过池化操作的key和经过池化操作的value,d
head
代表多头注意力的数量,Softmax()指激活函数;步骤1.1.3,经过自注意力后的特征,再经过一个前馈神经网络处理,使用LaryNorm做层归一化处理,然后使用线性映射将特征放大四倍,再使用线性映射将特征缩小四倍,最终输出第一特征图F1。5.根据权利要求2所述的基于分组注意力融合的伪装物体分割方法,其特征在于,所述步骤2构建分组注意力模块具体按以下步骤实施:步骤2.1,对主干网络提取到的四层特征分别进行降维操作;步骤2.2,对降维后的四组特征进行交叉融合;步骤2.3,对交叉融合后的四组特征记作f1′
,f2′
,f3′
,f4′
,分别进行分组注意力融合。
6.根据权利要求5所述的基于分组注意力融合的伪装物体分割方法,其特征在于,所述步骤2.1具体按以下步骤实施:步骤2.1.1,对四层特征分别做卷积核为3x3的卷积操作,输出通道数设置为64,使用BatchNorm进行归一化,最后使用ReLU操作做激活处理;步骤2.1.2,对处理后的四层特征分别做3x3的卷积操作,输入通道和输出通道设置一致,均为64,记作f1,f2,f3,f4。7.根据权利要求5所述的基于分组注意力融合的伪装物体分割方法,其特征在于,所述步骤2.2具体按以下步骤实施:步骤2.2.1,第四层特征由于没有上层特征,所以对其仅仅进行两层3x3的卷积操作,通道数保持一致;步骤2.2.2,将处理后的第四组特征按通道拆分为N组,将未处理的第三组特征按通道数拆分为N组,将第四组上采样后进行交叉融合,融合后经过一个3x3的卷积模块进行融合,输入通道数为128,输出通道数为64;步骤2.2.3,将处理后的第三组特征按通道拆分为N组,将未处理的第二组特征按通道数拆分为N组,将第三组上采样后进行交叉融合,融合后经过一个3x3的卷积模块进行融合,输入通道数为128,输出通道数为64;步骤2.2.4,将处理后的第二组特征按通道拆分为N组,将未处理的第一组特征按通道数拆分为N组,将第二组上采样后进行交叉融合,融合后经过一个3x3的卷积模块进行融合,输入通道数为128,输出通道数为64。8.根据权利要求5所述的基于分组注意力融合的伪装物体分割方法,其特征在于,所述步骤2.3具体按以下步骤实施:步骤2.3.1,对交叉融合后的第四组特征,首先按通道数拆分...

【专利技术属性】
技术研发人员:宋霄罡张鹏飞王凡凡戴添财万婷黑新宏
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1