当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于卷积注意力机制的复杂背景下目标检测方法技术

技术编号:34484074 阅读:17 留言:0更新日期:2022-08-10 09:01
本发明专利技术公开了一种基于卷积注意力机制的复杂背景下的目标检测方法,可用于对复杂背景下的前景目标进行精确检测。该发明专利技术主要包括:获取公开的复杂背景下目标检测数据集,构建训练集、验证集和测试集;构建基于卷积注意力机制的人工神经网络模型ForegroundNet模型;在Pytorch深度学习平台上使用训练集对ForegroundNet网络模型进行监督训练;在所构建的测试集上评估收敛的ForegroundNet模型的检测性能。本发明专利技术与当前主要的复杂背景目标检测算法相比,能够对前景目标的边缘区域进行精确检测,从而实现更高的检测性能。本发明专利技术在测试集上的检测结果对应的平均绝对误差更低,增强对齐指标、结构指标及加权的F指标更高,是一种更加精确的复杂背景下的目标检测算法。种更加精确的复杂背景下的目标检测算法。种更加精确的复杂背景下的目标检测算法。

【技术实现步骤摘要】
一种基于卷积注意力机制的复杂背景下目标检测方法


[0001]本专利技术涉及一种基于卷积注意力机制的复杂背景下的目标检测方法,适用于计算机视觉中复杂背景下的目标检测


技术介绍

[0002]随着人类社会的发展,人类获取信息的重要来源逐渐变为图像和视频,如何设计算法对这些海量产生的数据进行处理和利用,是工业界对计算机视觉技术发展的迫切需求。复杂背景下目标检测是计算机视觉领域中一项具有挑战性的任务,目的是在复杂背景的条件下,对感兴趣的前景目标进行检测,输出前景目标的分割图作为检测结果。复杂背景下目标检测具有非常高的研究价值,在医疗、农业、海洋、军事等领域有着广泛的应用。
[0003]得益于深度学习技术的发展,基于神经网络的目标检测方法取得了巨大的成功,一大批高效的通用目标检测算法被提出。但是在复杂背景条件下,图片通常具有色彩杂乱、光照条件多变和前景目标带有伪装色等特性,导致前景目标易与图片的背景融为一体,很难进行检测。通用的目标检测算法在带有复杂背景的图片中往往无法取得很好的检测效果,因此需要专门针对复杂背景的特性来优化网络模型。目前现有的复杂背景下的目标检测算法大多从增强图像特征、多尺度特征融合等方面来进行优化,已经取得了不错的检测性能。但是由于复杂背景的干扰,前景目标的颜色和纹理通常与背景相近,导致前景目标的边缘细节难以判断。由于没有从物理意义这一方面针对目标边缘区域的检测提出行之有效的优化手段,因此目前主要的复杂背景目标检测算法对前景目标的主体区域的位置和大致轮廓的检测较准确,但却无法对前景目标边缘易混淆的区域进行精确细致的检测,常常导致错判和误检现象。

技术实现思路

[0004]针对现有的复杂背景目标检测算法无法对前景目标的边缘区域进行准确检测的问题,本专利技术提出了一种基于卷积注意力机制的复杂背景下的目标检测方法,构建了ForegroundNet网络模型。该网络模型通过前景背景提议模块和特征生成模块构成前景特征、背景特征和边缘特征,通过卷积注意力对三类特征中前景目标相关的信息进行进一步聚合,提高模型对前景目标边缘区域的检测能力,从而提高模型的整体检测性能。收敛到最优性能的ForegroundNet模型的检测性能优于复杂背景目标检测领域的主流模型,能在降低检测结果的平均绝对误差(Mean Absolute Error,MAE)的同时,提高检测结果的增强

对齐指标(Enhanced

alignment Measure,EM)、结构指标(Structure Measure,SM)和加权的F指标(Weighted F Measure,WFM),说明本专利技术能够有效提高模型的目标检测精度。
[0005]为了实现上述目的,本专利技术提供如下技术方案:
[0006]一种基于卷积注意力机制的复杂背景下的目标检测方法,其特征在于,包括如下步骤:
[0007]步骤S1:获取公开的复杂背景目标检测数据集,构建训练集、验证集和测试集;
[0008]步骤S2:构建基于卷积注意力机制的ForegroundNet网络模型;
[0009]步骤S3:在所构建训练集上对所构建的ForegroundNet模型监督训练,直到模型收敛到最优性能;
[0010]步骤S4:将收敛的ForegroundNet模型在所构建的测试集上进行测试,评估模型在复杂背景下的检测性能。
[0011]进一步地,所述步骤S1具体包括:
[0012]步骤S101:获取公开的杂背景目标检测数据集,包含COD10K数据集、CAMO数据集和CHAMELEON数据集;
[0013]步骤S102:基于获取的复杂背景目标检测数据集COD10K和CAMO,构建包含4040对图片标签对的训练集,构建包含101对图像标签对的验证集,构建包含2353对图片标签对的测试集。
[0014]进一步地,所述步骤S2中构建的网络模型ForegroundNet模型主要包含:特征提取模块,前景背景提议模块、特征生成模块和基于卷积注意力的特征融合解码模块。
[0015]进一步地,所述步骤S3具体包括:
[0016]步骤S301:从所构建的训练集中随机抽取训练图片进行预处理,首先利用插值算法将输入图像和对应的真实标签的大小调整为H
×
W,其中,H表示图像高度,W表示图像宽度,随后进行图像数据增强处理,最后将图像进行归一化处理后输入ForegroundNet网络模型进行监督训练;
[0017]步骤S302:ForegroundNet模型通过特征提取模块提取出多尺度抽象特征,前景背景提议模块基于输入特征进行前景背景分割图的提议,输出N层提议结果k=1,2,...,N,提议结果中包含前景目标检测结果和背景目标检测结果随后特征生成模块基于提议结果生成前景特征、背景特征和边缘特征,基于卷积注意力的特征融合解码模块对每层的前景、背景和边缘特征进行融合解码,基于解码特征输出M层前景目标检测结果,用来表示,k=N+1,N+2,...,N+M;
[0018]步骤S303:基于提议结果和检测结果,计算模型在监督训练过程中的损失函数L
overall
,其计算方法如式(1)所示。
[0019][0020]其中,和分别表示第k层前景目标提议结果和背景目标提议结果对应的经过结构信息加权的交叉熵损失,和分别表示第k层前景目标提议结果和背景目标提议结果对应的经过结构信息加权的交并比损失。以前景目标检测结果为例,交叉熵损失和交并比损失的计算方法如式(2)和式(3)所示。
[0021][0022][0023]其中,H表示图像高度,W表示图像宽度,mask
gt
(x,y)和分别表示前景目标真实标签和第k前景目标提议结果中位置坐标为(x,y)的值,γ是和结构权重相关的参数,w(x,y)表示坐标为(x,y)的位置对应的结构权重,其表达式如下:
[0024][0025]其中,A
xy
表示坐标为(x,y)的像素周围像素的集合;
[0026]步骤S304:基于训练阶段模型的整体损失函数L
overall
,采用随机梯度下降(stochastic gradient descent,SGD)算法对ForegroundNet模型的网络参数进行迭代更新;
[0027]步骤S305:将ForegroundNet模型在训练过程中收敛最优性能的网络参数固化,输入待检测图片进行前向计算,在输出的N+M层不同的检测结果中,选取尺度最大的前景目标检测结果作为模型最终的检测结果mask
pred

[0028]进一步地,所述步骤S4具体包括:
[0029]步骤S401:逐一读取测试集中的待检测图片,利用插值法将其大小调整为H
×
W,随后将图片进行归一化,输入收敛到最优性能的ForegroundNet模型中进行前向计算,输出对应的检测结果mask
pred
;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积注意力机制的复杂背景下的目标检测方法,其特征在于,该方法包括如下步骤:步骤S1:获取复杂背景目标检测数据集,构建训练集、验证集和测试集;步骤S2:构建基于卷积注意力机制的ForegroundNet网络模型;步骤S3:在所构建的训练集上对ForegroundNet网络模型进行监督训练,直到模型收敛到最优性能;步骤S4:将收敛的ForegroundNet网络模型在所构建的测试集上进行测试,评估模型在复杂背景下的检测性能。2.根据权利要求1所述一种基于卷积注意力机制的复杂背景下的目标检测方法,其特征在于,所述步骤S1中复杂背景目标检测数据集包含数据集COD10K、CAMO和CHAMELEON。3.根据权利要求1所述一种基于卷积注意力机制的复杂背景下的目标检测方法,其特征在于,所述步骤S2中所构建的基于卷积注意力机制的ForegroundNet网络模型包含:特征提取模块,前景背景提议模块、特征生成模块和基于卷积注意力的特征融合解码模块。4.根据权利要求1所述一种基于卷积注意力机制的复杂背景下的目标检测方法,其特征在于,所述步骤S3具体包括:步骤S301:从所构建的训练集中随机抽取训练图片进行预处理,首先利用插值算法将输入图像和对应的真实标签的大小调整为H
×
W,H表示图像高度,W表示图像宽度;随后进行图像数据增强处理,最后将图像进行归一化处理后输入ForegroundNet网络模型进行监督训练;步骤S302:ForegroundNet网络模型通过特征提取模块提取出多尺度抽象特征,前景背景提议模块基于输入特征进行前景背景分割图的提议,输出N层提议结果k=1,2,...,N,提议结果中包含前景目标检测结果和背景目标检测结果随后特征生成模块基于提议结果生成前景特征、背景特征和边缘特征,基于卷积注意力的特征融合解码模块对每层的前景、背景和边缘特征进行融合解码,基于解码特征输出M层前景目标检测结果,用来表示,k=N+1,N+2,...,N+M;步骤S303:基于提议结果和检测结果,计算模型在监督训练过程中的损失函数L
overall
,其计算方法如式(1)所示,其中,...

【专利技术属性】
技术研发人员:李春国罗顺刘周勇李武斌吴宇凡杨绿溪
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1