基于注意力机制的目标检测方法技术

技术编号:34467756 阅读:18 留言:0更新日期:2022-08-10 08:41
本发明专利技术公开了一种基于注意力机制的目标检测方法,主要解决现有目标检测方法网络复杂、速度不快和在复杂背景下检测效果差的问题。本发明专利技术的具体步骤如下:(1)构建积神经网络;(2)生成目标训练集;(3)训练卷积神经网络;(4)对待检测目标进行检测。本发明专利技术构建了一个由特征提取模块、注意力机制模块、特征增强模块、识别和定位模块组成的卷积神经网络,克服了现有目标检测方法中在复杂背景下目标检测效果差并且速度慢的问题,使得本发明专利技术能够实时检测复杂背景下的目标。检测复杂背景下的目标。检测复杂背景下的目标。

【技术实现步骤摘要】
基于注意力机制的目标检测方法


[0001]本专利技术属于图像处理
,涉及图像检测,特别涉及一种基于注意力机制的目标检测方法。

技术介绍

[0002]现有的大量目标检测方法在公开数据集中获得了非常高的分数,但在现实任务中目标检测仍然存在很多挑战,像在复杂背景下对目标的检测效果较差等。例如,在实际道路上,智能驾驶系统的实时检测行人和车辆将有助于驾驶员更安全地行驶。然而,现实情况的背景却十分复杂,比如雨天和下雪天等恶劣天气会影响行人和车辆的检测,傍晚和夜间的时间对行人和车辆检测效果也较差,在高速路或者城市道路等不同的场景中对行人和车辆的检测效果也会受到影响。
[0003]在专利CN 112163580 A中公开了一种基于注意力机制的小目标检测算法。该算法在检测过程中加入了注意力机制,从而将注意力机制应用到不同通道的特征图上,增强对于识别有利的通道,抑制对于识别无用的通道。该方法首先将图像输入RPN网络,提取预选区域;将获取的区域输入FPN,提取多尺度的特征;将多尺度的特征输入注意力机制模块;在注意力机制模块中,通过两个全连接层和一个Sigmoid函数来计算特征通道的权值;将获得的特征图输入ROI Align层;根据得到的特征图,进行分类和回归,得到检测结果。此方法虽然可以提高目标检测精度,但是,该方法仍然存在的不足之处是:特征提取网络性能一般,使得添加注意力机制效果不明显,导致在实际复杂背景下的目标检测效果不佳。
[0004]Han Hu等人在其发表的论文Relation Networks for Object Detection(The IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018)中公开了一种基于注意力机制的图像目标检测方法Relation Networks for Object Detection,该方法通过引入对象关系模块来刻画对象之间的关系,借助这样的注意力来提升目标检测的效果。该方法在检测过程中可以通过利用图像中目标之间的相互关系或者叫图像内容来优化检测效果,这种关系既包括相对位置关系也包括图像特征关系。即首先将图片输入到特征提取主网络;得到ROI及特征(RPN网络就包含在其中);基于ROI做边框回归和object分类,在此网络的全连接层后加入注意力机制;进行非极大值处理,去除重复框。尽管此网络的方法可以提高目标的检测精度,但是该方法仍然存在的不足之处是:参数较多导致检测速度慢,所以无法在快速检测的场景中使用。

技术实现思路

[0005]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于注意力机制的目标检测方法,以解决现有目标检测方法网络复杂、速度不快和在复杂背景下对目标检测效果差的问题,能够实时检测复杂背景下的目标。
[0006]为了实现上述目的,本专利技术采用的技术方案是:
[0007]基于注意力机制的目标检测方法,包括:
[0008]步骤1,构建卷积神经网络
[0009]所述卷积神经网络由特征提取模块、注意力机制模块、特征增强模块、识别和定位模块依次连接组成;所述特征提取模块用于提取目标特征,所述注意力机制模块用于改变不同通道的特征权重,所述特征增强模块用于对提取的目标特征进行增强,所述识别和定位模块用于对增强的目标特征进行识别和定位;
[0010]步骤2,生成目标训练集
[0011]所述目标训练集由多张含有目标的待检测图片组成,每张待检测图片中的目标均进行标注,所述标注,是标注出目标所在的每个外接矩形框的各顶点坐标和其代表的类别;
[0012]步骤3,训练所述卷积神经网络
[0013]步骤4,对待检测目标进行检测
[0014]将含有待检测目标的图片输入训练好的卷积神经网络,输出对图片中待检测目标的类别和目标所在的每个外接矩形框位置的检测结果。
[0015]与现有技术相比,本专利技术的有益效果是:
[0016]第一,由于本专利技术构建了一个由特征提取模块、注意力机制模块、特征增强模块、识别和定位模块组成的目标检测网络,其中,注意力机制模块主要针对于解决背景复杂,检测网络难以区分检测目标和背景的场景。通过加入注意力机制,增加特征提取模块输出结果检测目标的权重,降低特征提取模块输出结果背景的权重。最终,克服了现有目标检测方法中在复杂背景下难以有效提取待检测物体的特征,导致最终检测精度不高的问题,使得本专利技术能够在复杂背景下精确识别出待检测的目标。
[0017]第二,由于本专利技术构建了基于端到端的一个目标检测网络,整体网络结构十分简单,但特征提取能力较强且由于计算量较少使得检测速度较快,克服了现有目标检测方法检测速度慢的问题,使得本专利技术能够应用到智能驾驶系统实时对车辆和行人进行精确识别,实现实时目标检测的功能。
附图说明
[0018]图1为本专利技术的流程图。
[0019]图2为本专利技术卷积神经网络结构示意图
[0020]图3为本专利技术中注意力机制模块的结构图。
[0021]图4为未添加注意力模块的检测结果。
[0022]图5为添加注意力模块的检测结果。
具体实施方式
[0023]下面结合附图和实施例详细说明本专利技术的实施方式。
[0024]本专利技术为一种基于注意力机制的目标检测方法,通过构建一个卷积神经网络提取目标特征,并使用注意力机制改变不同通道的特征权重,然后对提取的目标特征进行增强,最终将输出的向量与类别和位置相对应,对目标进行识别与定位,使得能够精确检测出图中的每一个目标。
[0025]参考图1,本专利技术具体包括如下步骤:
[0026]步骤1,构建卷积神经网络:
[0027]参考图2,本专利技术卷积神经网络由特征提取模块、注意力机制模块、特征增强模块、识别和定位模块依次连接组成。其中:
[0028]特征提取模块用于提取目标特征,该模块共有9层,其结构依次为:Focus层

第一卷积层

第一CSP层

第二卷积层

第二CSP层

第三卷积层

第三CSP层

第四卷积层

池化层。并设置每层参数为:
[0029]第一至第四卷积层中卷积核的个数分别设置为64,128,256,512,卷积核的大小均设置为3
×
3,步长均设置为2,且每一个卷积层都需要进行卷积操作、批归一化处理和ReLU激活处理。
[0030]Focus层需要进行一次下采样和卷积操作,下采样时宽和高均将为原来的一半,通道数增加到原来的四倍,卷积操作的卷积核大小为1
×
1,步长为1。
[0031]CSP层有两路操作,上路是通过卷积操作再通过残差结构,下路是一个卷积操作,将两路进行通道拼接后通过卷积操作,每次的卷积核大小均设置为3
×
3,步长均设置为2。
...

【技术保护点】

【技术特征摘要】
1.基于注意力机制的目标检测方法,其特征在于,包括如下步骤:步骤1,构建卷积神经网络所述卷积神经网络由特征提取模块、注意力机制模块、特征增强模块、识别和定位模块依次连接组成;所述特征提取模块用于提取待检测目标特征,所述注意力机制模块用于改变不同通道的特征权重,所述特征增强模块用于增强提取的目标特征,所述识别和定位模块用于对增强的目标特征进行识别和定位;步骤2,生成目标训练集所述目标训练集由多张含有目标的待检测图片组成,每张待检测图片中的目标均进行标注,所述标注,是标注出目标所在的每个外接矩形框的各顶点坐标和其代表的类别;步骤3,训练卷积神经网络;步骤4,利用训练完成的卷积神经网络对待检测目标进行检测;将含有待检测目标的图片输入训练好的卷积神经网络,输出对图片中待检测目标的类别和目标所在的每个外接矩形框位置的检测结果。2.根据权利要求1所述基于注意力机制的目标检测方法,其特征在于,所述特征提取模块共有9层,其结构依次为:Focus层

第一卷积层

第一CSP层

第二卷积层

第二CSP层

第三卷积层

第三CSP层

第四卷积层

池化层;设置每层参数为:将第一至第四卷积层中卷积核的个数分别设置为64,128,256,512,卷积核的大小均设置为3
×
3,步长均设置为2,且每一个卷积层均需要进行卷积操作、批归一化处理和ReLU激活函数处理;Focus层进行一次下采样和卷积操作,下采样时宽和高均降为原来的一半,通道数增加到原来的四倍,卷积操作的卷积核大小为1
×
1,步长为1;CSP层有两路操作,上路是通过卷积操作再通过残差结构,下路是一个卷积操作,将两路进行通道拼接后通过卷积操作,每次的卷积核大小均设置为3
×
3,步长均设置为2;池化层有四路,有一路是输入,另外三路的池化区域核的大小分别为5
×
5、9
×
9、13
×
13,步长均设置为2,且均采用最大池化的方式,将四路结构拼接后进行卷积操作,卷积核大小为3
×
3,步长为2。3.根据权利要求2所述基于注意力机制的目标检测方法,其特征在于,所述批归一化处理是对每一批数据进行归一化,所用的处理方法是min

batch SGD;所述ReLU激活函数用于增加卷积神经网络的非线性,并克服梯度消失的问题,该函数公式为:f(x)=max(0,x)式中,x是输入的特征信息,f(x)是输出的特征信息。4.根据权利要求2或3所述基于注意力机制的目标检测方法,其特征在于,所述注意力机制模块共有3层,其结构依次为:全局平均池化层

权重共享的一维卷积层

Sigmoid激活层;将池化区域核的大小设置为2
×
2,步长设置为2;与特征提取模块的卷积层不同,权重共享的一维卷积层的卷积核大小为k,填充为k/2。5.根据权利要求4所述基于注意力机制的目标检测方法,其特征在于,所述全局平均池化层的函数为:
其中,z<...

【专利技术属性】
技术研发人员:李超张文博姬红兵张靖宇朱隽洋
申请(专利权)人:陕西方寸积慧智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1