基于全方位感知的伪装目标图像分割方法技术

技术编号:33637442 阅读:16 留言:0更新日期:2022-06-02 01:52
本发明专利技术属于计算机视觉中的场景分割技术领域,提供了一种基于全方位感知的伪装目标图像分割方法,设计了一种面向精确伪装目标分割的新型全方位感知网络,其中提出了金字塔定位模块和双聚焦模块,来耦合局部特征和全局表示,以便更准确地定位伪装目标并精细划分边界,解决计算机视觉中伪装目标分割的问题。本发明专利技术的方法伪装目标分割的结果,同时在不同场景下具有有效性和实用性。景下具有有效性和实用性。景下具有有效性和实用性。

【技术实现步骤摘要】
基于全方位感知的伪装目标图像分割方法


[0001]本专利技术属于计算机视觉中的场景分割(SceneSegmentation)
,实现结果为图像内容的分割,特别涉及一种真实环境图像中伪装目标的分割方法。

技术介绍

[0002]二维图像分割是指把图像中属于不同物体的像素区分开,以此来确定环境图像中目标大小、形状和位置等信息的技术,是图像处理到图像分析的关键步骤,具有巨大的应用价值。近些年来,场景分割相关任务,如目标检测、深度估计、显著性区域检测和阴影检测等方法,都获得了显著的性能提升。
[0003]自然界中有相当多的生物进化出了高超的伪装本领(例如,保护色和模仿),能将自己伪装以融入周围环境,进而达到逃避捕食者的目的。因为这类生物与背景之间高度的相似性,识别伪装的目标对于人类的视觉系统来说都是极具挑战性的任务,如果这类生物出现在以计算机视觉为基础的任务中,将对任务的准确性造成很大影响。因此,伪装目标分割是一个极具挑战的任务。同时,伪装目标分割能够有助于医学图像分析、蝗虫入侵监控和搜索救援等任务,它也是一个不可或缺的任务。
[0004]早期的伪装目标分割方法利用边缘、纹理和亮度等低级特征将物体从背景中区分出来。但这些方法只适用于一些简单的场景,在面对复杂的野外场景时就会失效。因此,近年来关于伪装目标分割的研究往往借助深度神经网络强大的能力来处理更具挑战性的场景。受自然界中捕食者捕获猎物过程的启发,许多伪装目标分割方法遵循着先定位后聚焦的模式来检测伪装目标的位置、大小和形状。然而,由于这些方法只根据区域级别的上下文特征做出决策,因此通常无法在更为混乱的场景中对伪装目标进行定位,也无法准确勾画出伪装目标的边界。
[0005]我们观察到,自然界中的顶级掠食者通常同时具备良好的中心视野和周边视野,使用中心视野来搜索目标,同时通过周边视野从场景环境中获取线索。因此,理想的伪装目标分割模型在检测目标时应该能够同时处理局部特征和全局表示。本专利技术基于对现有伪装目标分割技术的调查与分析,受自然界中顶级掠食者捕获猎物过程的启发,提出了一种新的神经网络,通过建立对输入场景的全方位感知来分割伪装目标,使模型能够在整个检测过程中同时利用局部特征和全局表示,形成了分割场景中伪装目标的全方位感知网络(Omni Perception Network),即OPNet。OPNet的输入是包含伪装目标的RGB图像,输出是伪装目标的掩膜图像,掩膜图像中伪装目标区域的值为1,非伪装目标区域的值为0。实验证明,本方法能够有效分割出不同场景下不同类型的伪装目标,帮助场景理解提升准确度。

技术实现思路

[0006]本专利技术的目的是对场景的RGB图像,创新性地使用全方位感知的方式,在检测中集成局部特征和全局表示,进而实现伪装目标分割。OPNet先后包含特征提取器、金字塔定位模块(Pyramid Positioning Module)和双重聚焦模块(Dual Focus Module),其中特征提
取器使用Conformer作为主干网络提取局部特征和全局表示;金字塔定位模块(Pyramid Positioning Module)结合局部特征和全局表示精确定位不同大小的目标对象;双重聚焦模块(Dyal Focus Module)则结合局部特征和全局表示确定目标的边界并消除干扰背景。本专利技术所述方法适用于分割不同种类、位置和大小的伪装目标。
[0007]本专利技术的技术方案:
[0008]一种基于全方位感知的伪装目标图像分割方法,步骤如下:
[0009]步骤1、构建伪装目标分割网络OPNet
[0010]伪装目标分割网络OPNet主要由特征提取器、一个金字塔定位模块和三个双重聚焦模块组成;
[0011]特征提取器的主干网络采用的是Conformer,通过双重网络结构即卷积分支和Transformer分支同时提取局部特征和全局表示,并通过功能耦合单元以交互方式融合局部特征和全局表示;
[0012]金字塔定位模块使用金字塔自注意力机制,能够减少形状变化的负面影响并提供伪装目标的定位,从而初步确定图像中潜在伪装目标的位置。具体来说,金字塔定位模块的输入为从Conformer的卷积分支和Transformer分支中提取的局部特征C和全局表示T(T中包括N patch token embeddings T
p
和1 segmentation token embeddingst
s
)。首先通过自适应平均池化和重塑操作将它们转换为一致的形状:
[0013][0014][0015]其中,[]e
表示embedding维度上的串联操作;ψ
k
表示一个k
×
k的卷积层;表示目标尺寸为n
×
n的自适应平均池化;表示变形操作;表示正则化层;表示激活函数。然后,使用元素级加法运算将两种特征融合:
[0016]F
fusion
=C
down
+T
down

[0017]在这之后,将F
fusion
反馈至联合依赖感知模块中以检测全局相关性:
[0018][0019]其中,表示多头自注意力机制;表示多层感知机。得到的F
jdp
由两部分组成,分别为N patch token embeddingsF
p
和1 segmentation token embeddingsf
s
。然后对F
jdp
进行两种类型的变换,以生成两种类型的特征(分别用于增强局部特征和全局表示):
[0020][0021][0022]其中,是由双线性运算实现的上采样;给定中的目标大小n后,联合依赖感知模块仅在固定尺度上执行全局相关性感知;在特定尺度下,F
fusion
中的每个patch token embeddings都是具有特定尺寸区域的表示;通过改变联合依赖感知模块中的n以实现多尺度依赖感知:
[0023][0024][0025]其中,[]c
表示通道维度上的串联操作;和是联合依赖感知模块的输出局部特征和全局表示,其中中的n等于i;最后,通过如下方式生成金字塔定位模块的最终输出:
[0026][0027][0028]接下来三个双重聚焦模块将进一步处理C
ppm
和T
ppm

[0029]双重聚焦模块旨在帮助网络在解码阶段专注于候选区域,它利用局部和全局注意力机制来帮助完成伪装对象边界的描绘,它将前一个模块输出的局部特征C
h
、全局表示E(包含N patch token embeddings E
p
和1 segmentation token embeddings e
s
)以及来自编码器的当前级别局部特征C
cenc
(如图1中的C
cenc 1
...

【技术保护点】

【技术特征摘要】
1.一种基于全方位感知的伪装目标图像分割方法,其特征在于,步骤如下:步骤1、构建伪装目标分割网络OPNet伪装目标分割网络OPNet主要由特征提取器、一个金字塔定位模块和三个双重聚焦模块组成;特征提取器的主干网络采用的是Conformer,通过双重网络结构即卷积分支和Transformer分支同时提取局部特征和全局表示,并通过功能耦合单元以交互方式融合局部特征和全局表示;金字塔定位模块使用金字塔自注意力机制,金字塔定位模块的输入为从Conformer的卷积分支和Transformer分支中提取的局部特征C和全局表示T,T中包括N patch token embeddings T
p
和1segmentation token embeddingst
s
;首先通过自适应平均池化和重塑操作将输入转换为一致的形状:作将输入转换为一致的形状:其中,[]
e
表示embedding维度上的串联操作;ψ
k
表示一个k
×
k的卷积层;表示目标尺寸为n
×
n的自适应平均池化;表示变形操作;表示正则化层;表示激活函数;然后,使用元素级加法运算将两种特征融合:F
fusion
=C
down
+T
down
,在这之后,将F
fusion
反馈至联合依赖感知模块中以检测全局相关性:其中,表示多头自注意力机制;表示多层感知机;得到的F
jdp
由两部分组成,分别为N patch token embeddingsF
p
和1segmentation token embeddingsf
s
;然后对F
jdp
进行两种类型的变换,以生成两种类型的特征,分别用于增强局部特征和全局表示:增强局部特征和全局表示:其中,是由双线性运算实现的上采样;给定中的目标大小n后,联合依赖感知模块仅在固定尺度上执行全局相关性感知;在特定尺度下,F
fusion
中的每个patch token embeddings都是具有特定尺寸区域的表示;通过改变联合依赖感知模块中的n以实现多尺度依赖感知:尺度依赖感知:其中,[]
c
表示通道维度上的串联操作;和是联合依赖感知模块的输出局部特征和全局表示,其中中的n等于i;最后,通过如下方式生成金字塔定位模块的最终输出:
接下来三个双重聚焦模块将进一步处理C
ppm
和T
ppm
;双重聚焦模块旨在帮助网络在解码阶段专注于候选区域,利用局部和全局注意力机制来帮助完成伪装对象边界的描绘,它将前一个模块输出的局部特征C
h
、全局表示E以及来自编码器的当前级别局部特征C
cenc
作为输入,其中,全局表示E包含N patch token embeddings E
p
和1segmentation token embeddings e
s
;首先对更高级别的局部特征C
h
和全局表示E进行通...

【专利技术属性】
技术研发人员:杨鑫梅海洋周运铎魏小鹏朴海音
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1