当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于双边注意力机制的复杂背景下目标检测方法技术

技术编号:33958787 阅读:54 留言:0更新日期:2022-06-30 00:07
本发明专利技术公开了一种基于双边注意力机制的复杂背景下的目标检测方法,可用于在复杂背景下进行精确的前景目标检测。该发明专利技术主要包括:根据公开的复杂背景下目标检测数据集,构建训练集、验证集和测试集;构建基于双边注意力机制的人工神经网络检测模型Bi

【技术实现步骤摘要】
一种基于双边注意力机制的复杂背景下目标检测方法


[0001]本专利技术涉及一种基于双边注意力机制的复杂背景下的目标检测方法,适用于计算机视觉中复杂背景下的目标检测


技术介绍

[0002]图像和视频是人类获取信息的重要来源,因此利用计算机针对海量图像和视频进行分析处理的应用也得到了大力发展。目标检测作为计算机视觉领域的基本任务之一,是帮助计算机理解图像数据的重要手段,在行人检测、车辆检测、自动驾驶、安防系统和医疗等领域都有着广泛的应用前景。
[0003]得益于深度学习技术的发展,目标检测在最近几年吸引了广泛的注意力,并取得了巨大的成功,一大批高效的检测算法被提出。现有的基于卷积神经网络(Convolution Neural Networks,CNN)的目标检测算法主要分为两大类:单阶段检测算法和两阶段检测算法。单阶段检测算法的代表性算法有YOLO和SSD,两阶段算法的代表性算法有Faster R

CNN和Cascade R

CNN。当前的通用目标检测已经取得了长足的发展,能够达到较高的检测准确率,但是由于现实中的场景的复杂性,以及目标的伪装色和遮挡情况对高精度检测带来了很大的挑战。一些应用领域例如医疗、农业、海洋、军事等采集到的图像数据中,背景的复杂程度往往较高。由于光照强度、色彩复杂度以及物体本身的伪装颜色等因素,待检测目标往往与周围环境融为一体,前景与背景之前的差距极小,物体的边缘难以区分,导致通用的目标检测算法无法直接应用。因此开展复杂背景下的目标检测算法的研究具有重要的意义。

技术实现思路

[0004]针对现有复杂背景下的目标检测算法检测精确度不足的问题,本专利技术在当前算法SINet的基础上,提出了一种基于双边注意力机制的复杂背景下的目标检测方法,被命名为Bi

SINet。本专利技术中的Bi

SINet网络模型采用渐进式的检测框架,由粗到细地对待检测目标进行推理检测。同时,利用双边注意力来提高特征融合的效率。训练好的Bi

SINet网络模型的检测性能优于Bi

SINet模型,在降低平均绝对误差(Mean Absolute Error,MAE)的同时,提高了检测结果的增强

对齐指标(Enhanced

alignment Measure,EM)、结构指标(Structure Measure,SM)和加权的F指标(Weighted F Measure,WFM),说明本专利技术有效提高了复杂背景下的目标检测精度。
[0005]为了实现上述目的,本专利技术提供如下技术方案:
[0006]一种基于双边注意力机制的复杂背景下的目标检测方法,其特征在于,包括如下步骤:
[0007]步骤S1:根据公开的复杂背景下的目标检测数据集,构建训练集、验证集和测试集;
[0008]步骤S2:构建基于双边注意力机制的Bi

SINet网络模型,利用所构建的训练集对Bi

SINet网络模型进行监督训练,直到模型收敛到最优性能;
[0009]步骤S3:将待检测图像输入步骤S2得到的收敛的Bi

SINet网络模型进行前向运算,即可得到检测结果。将收敛的Bi

SINet网络模型在所构建的测试集上进行检测,根据检测结果评估模型性能。
[0010]进一步地,所述步骤S1具体包括:
[0011]步骤S101:获取公开的复杂背景下的目标检测数据集,包含COD10K数据集、CAMO数据集和CHAMELEON数据集;
[0012]步骤S102:所构建的训练集4040对图像标签对,所构建的验证集包含101对图像标签对,所构建的测试集包含2352对图像标签对。
[0013]进一步地,所述步骤S2具体包括:
[0014]步骤S203:在训练阶段,采用交叉熵损失函数和交并比损失函数对模型输出的5个检测结果进行监督训练,总体损失函数可以用L
overall
来表示,其计算公式为:
[0015][0016]其中,表示第k层检测结果与真实标签之间的结构加权后的交叉熵损失,而则表示第k层检测结果与真实标签之间的结构加权后的交并比损失,它们的计算表达式分别为:
[0017][0018][0019]其中,H表示图像高度,W表示图像宽度,和mask
GT
(x,y)分别表示第k层预测结果和真实标签中位置坐标为(x,y)的值,γ是和结构权重相关的参数,设置为γ=5,w(x,y)表示坐标为(x,y)的位置对应的结构权重,其表达式如下:
[0020][0021]其中,A
xy
表示以坐标为(x,y)的像素为中心的周围像素的集合;
[0022]步骤S204:在训练过程中,采用随机梯度下降优化算法对网络参数进行迭代更新,同时以多项式法对学习率进行衰减。训练过程中,间隔200次迭代使用所构建的验证集对模型性能进行验证,确保模型收敛到最优性能;
[0023]步骤S205:利用优化收敛后固定参数的Bi

SINet网络模型对输入的待检测图像进行前向计算,即可获得前景目标分割图作为检测结果。
[0024]进一步地,所述步骤S3具体包括:
[0025]步骤S301:将待检测图片归一化后,输入收敛的Bi

SINet网络模型进行检测,在输
出的5个不同尺度的检测结果中,选择尺度最大的作为模型的最终检测结果mask
pred

[0026]步骤S302:根据模型的检测结果mask
pred
和对应的真实标签mask
GT
,计算平均绝对误差MAE,计算公式如下:
[0027][0028]其中,H表示图像高度,W表示图像宽度,mask
pred
(x,y)和mask
GT
(x,y)分别表示预测结果和真实标签中位置坐标为(x,y)的值;
[0029]步骤S303:根据模型的检测结果mask
pred
和对应的真实标签mask
GT
,计算客观评价指标EM,计算公式如下:
[0030][0031]其中,H代表图像高度,W表示图像宽度,φ
FM
表示增强的对齐矩阵;
[0032]步骤S304:根据模型的检测结果mask
pred
和对应的真实标签mask
GT
,计算客观评价指标SM,计算公式如下:
[0033]SM=αS0+(1

α)S
r (7)
[0034]其中S0表示针对目标的结构相似度,S
r
表示针对区域的结构相似度,平衡两者的权重a通常取值0.5;
[0035]步骤S305:根据模型的检测结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双边注意力机制的复杂背景下的目标检测方法,其特征在于,该方法包括如下步骤:步骤S1:根据公开的复杂背景下的目标检测数据集,构建训练集、验证集和测试集;步骤S2:构建基于双边注意力机制的Bi

SINet网络模型,利用所构建的训练集对Bi

SINet网络模型进行监督训练,直到模型收敛到最优性能;步骤S3:将收敛的Bi

SINet网络模型在所构建的测试集上进行测试,根据检测结果评估模型性能。2.根据权利要求1所述一种基于双边注意力机制的复杂背景下的目标检测方法,其特征在于,所述步骤S1中目标检测数据集包含数据集COD10K、数据集CAMO和数据集CHAMELEON。3.根据权利要求1所述一种基于双边注意力机制的复杂背景下的目标检测方法,其特征在于,所述步骤S2具体包括:步骤S201:对训练数据进行预处理,首先利用双线性插值法将原始图像大小调整为384
×
384,并调整对应的真实标签,随后进行图像数据增强处理,最后将图像进行归一化处理后输入Bi

SINet网络模型进行训练;步骤S202:Bi

SINet网络模型对输入图像进行特征提取,随后将提取到的多层特征输入渐进式的检测框架中进行检测;渐进式的检测框架会基于每层特征进行前景目标分割,共输出N个不同尺度的检测结果,用来表示,k=0,1,...,N

1;步骤S203:在训练阶段,采用交叉熵损失函数和交并比损失函数对模型输出的N个检测结果进行监督训练,总体损失函数可以用L
overall
来表示,其计算公式为:其中,表示第k层检测结果与真实标签之间的结构加权后的交叉熵损失,则表示第k层检测结果与真实标签之间的结构加权后的交并比损失,它们的计算表达式分别为:示第k层检测结果与真实标签之间的结构加权后的交并比损失,它们的计算表达式分别为:其中,H表示图像高度,W表示图像宽度,和mask
GT
(x,y)分别表示第k层预测结果和真实标签中位置坐标为(x,y)的值,γ是和结构权重相关的参数,w(x,y)表示坐标为(x,y)的位置对应的结构权重,其表达式如下:
其中,A
xy
表示坐标为(x,y)的像素周围像素的集合;步骤S204:在训...

【专利技术属性】
技术研发人员:李春国罗顺刘周勇杨绿溪
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1