一种基于注意力机制的小目标检测方法技术

技术编号:32738761 阅读:9 留言:0更新日期:2022-03-20 08:45
本发明专利技术公开了一种基于注意力机制的小目标检测方法,该方法使用改进型Resnet网络作为特征提取网络,将Resnet网络的Bottle Net网络架构分解成多个均匀的分支结构,从而降低超参数的量并得到更好的效果;并引入空间、通道注意力并对多层间的信息进行融合,使用改进的FPN进行多尺度预测,使得模型不仅能检测出小目标,还能对中、大型目标进行检测;每个检测输出对每个类别预测一个条件概率值,直接从图片获得预测结果,从而获得目标信息;并将三个尺度的特征图传递至检测头中进行联合训练。本发明专利技术使用深度神经网络进行检测,根据不同的应用场景获取不同数据集用于训练,能够使用多种不同的领域,并保持较高的检测准确率。并保持较高的检测准确率。并保持较高的检测准确率。

【技术实现步骤摘要】
一种基于注意力机制的小目标检测方法


[0001]本专利技术属于生物特征认证
,涉及一种基于注意力机制的小目标检测方法。

技术介绍

[0002]目标检测也是计算机视觉四大基本任务中的一个,有着十分广阔的应用前景。目标检测技术在军事和民用领域都有着的极大的应用价值,如在机场、火车站、港口、无人机对地侦测等重要场合下,以及视频监控、人脸识别、智能交通等方面都有应用,并且取得了不错的效果,同时也为图像分析、理解和行为识别等任务提供技术基础。但是该技术还不是完美的,存在着一些难以解决的问题,如小目标难以检测的问题。这个问题在日常生活中普遍存在,如监控视频中的比较小的车辆和行人、自动驾驶中需要远距离识别行人和车辆、卫星图中的众多小目标等。小目标通常是由于场景中待检测目标距离摄像头较远或者实际物理尺寸较小从而导致目标在图片中的像素占比少。因此,在目标检测过程中,由于不同尺寸目标其特征表征能力的不同,从而导致多尺度特征学习困难,最终造成小尺寸目标检测精度较低甚至产生大量漏检的现象。目前对于这些小目标的检测效果完全不能应用到日常生活和工业生产中,还需要极大的提升才能够得到应用。正是基于这样的发展背景,对于小尺寸目标的检测一直是目标检测任务中一个极具挑战且重要的分支。
[0003]小目标检测技术是在给定的图像上判断是否有小目标,并且要标注出小目标的位置,一般使用矩形框进行标注,小目标的检测在自动驾驶、医学检测、工业生产、卫星遥感以及刑侦等领域中都有着广泛且重要的应用。在自动驾驶领域,汽车常常通过摄像头等装置采集到的高分辨率场景照片,但是由于距离等原因,照片中的行人目标或交通标志不可能会很大。但这些小目标的准确检测却深刻影响着安全自动驾驶的实现;而在医学领域,医学图像中微小肿块的成功检测是早期准确诊断肿瘤的重要前提;工业生产中的缺陷检测能够检测以及定位材料表面上的小缺陷从而尽快发现问题,这也体现了小目标检测的优点;卫星遥感图像中需要有效地注释诸如汽车,船和房屋之类的目标,但是由于距离的原因这些目标常常表现为小目标,这也急需小目标检测的方法来检测这种目标;而在刑侦图像中,异常的小包裹、小行人、车里面的小挂件、衣服上的小标志、室内的一些小摆设等都是破案的关键线索。此外还有很多的应用场景,因此小目标检测有很大的价值。
[0004]由于小目标对象在图像中所占像素很少,可用的信息不多。小目标检测的难点在于以下三方面:一是小目标所占像素少,在深度神经网络中经过多次卷积、池化操作后,检测器提取的特征较少,甚至小目标对象可能就成为一个像素点,无法进行检测。二是小目标因为小在检测过程中,会被附近其他目标遮挡、或者重叠,以至于难以与其他的目标进行分割,并实现小目标的定位和分类。三是现有的基于锚框的目标检测方法中的锚框的大小和宽高比都是基于中、大型目标进行设置,使得小目标在整个学习过程被忽视,以及一般目标检测中的感受野对小目标不是很友好,小目标特征的感受野映射回原图将可能大于小目标在原图的尺寸,造成检测效果差。
[0005]传统的目标检测方法主要由区域选择、特征提取和分类器设计组成。首先是在图像上选择候选区域,可以有多个且大小不一的候选框,然后对每一个候选区域做特征提取,将提取到的特征放入分类器中进行类别判断和回归处理,得到最终的检测结果。该方法常常使用人工选择的特征,如Haar特征、HOG特征以及积分图特征等,但是在不同的检测任务中需要选择不同的特征,使其在通用性、鲁棒性以及可移植性等方面难以满足要求。
[0006]随着深度学习技术的发展,深度学习方法被应用于目标检测,2014年Girshick、Donahue等人首次将深度学习引入到目标检测并提出R

CNN网络,只有又出现的Fast R

CNN、Faster R

CNN等被称为二阶段法的技术,这些技术大大提高了目标检测的精度,但是由于使用二阶段法,其速度不是很好,因而有了如YOLO v1、YOLO v2、YOLO v3、YOLO v4、SSD、DSSD等单阶段的技术,虽然这些技术在检测精度上可能略逊于两阶段法,但是其在检测速度上是优于两阶段法。然而,这些方法局限于都是为了中、大型的目标进行设计的,虽然能检测小目标,但是检测效果不是很理想。有学者提出FPN网络,在不同的尺度上对目标进行检测,从而实现对小目标的检测,小目标的检测性能得到了很大的提升。但是FPN网络仅仅简单的将骨干网络得到的特征图与去自顶向下上采样得到特征图进行简单的叠加得到新的特征图,特征图中的空间信息和通道信息并没有完全得到利用。

技术实现思路

[0007]本专利技术的目的在于提供一种检测精度较高、鲁棒性好的基于注意力机制的小目标检测方法。
[0008]本专利技术的原理为:通过COCO、PASCAL VOC等数据集以及自己标注的图像来构建数据集,然后将些数据集划分出训练集、测试集和验证集;然后构建预处理网络,对其输入的图像进行预处理,然后构建特征提取网络、特征融合网络以及小目标回归网络,并对网络进行初始化处理,然后利用训练集、测试集以及验证集的数据对网络进行训练,获得最优的网络参数;然后使用训练好的网络来处理输入的图像,回归得到小目标的位置边框。
[0009]实现本专利技术目的的技术解决方案为:一种基于注意力机制的小目标检测方法,该方法具体包括以下步骤:
[0010]步骤1、使用目标检测数据集以及自己标注图像数据相结合的方法,构建小目标检测数据集,对数据集中的图像进行预处理,然后按照设定比例划分为训练集、测试集以及验证集;
[0011]步骤2、构建卷积神经网络的网络结构,包括特征提取网络、特征融合网络以及小目标预测网络,并对参数进行初始化;使用改进型Resnet网络作为特征提取网络,将Resnet网络的Bottle Net网络架构分解成多个均匀的分支结构;特征融合网络采用一种基于通道和空间注意力的模块即CBAM模块,将CBAM模块嵌入到特征金字塔网络FPN中进行多尺度预测,对多层间的信息进行融合;
[0012]步骤3、将训练集中的训练样本输入到初始化的卷积神经网络中,根据网络传播流程计算出各部分损失,并根据损失来调整各个参数,从而得到最佳的网络参数;然后在测试集合中进行测试,以及在验证集合中进行验证,最终得到训练好的神经网络模型;
[0013]步骤4、利用训练好的深度卷积神经网络模型检测图像中的小目标,得到小目标检测框、分类以及置信度信息并在图像中标注出来。
[0014]本专利技术与现有技术相比,其显著优点为:(1)利用深度学习构建的小目标检测方法的检测精度较高,对实际检测环境的变化不敏感,鲁棒性较好,能够应用在实际的生产环境中;(2)由于在网络使用多尺度的检测方法,整个网络不仅能对小目标进行检测,还能对中、大型目标进行检测,而且检测速度以及检测精度都能够很好的满足工程中的检测要求。
附图说明
[0015]图1为本专利技术具体实施流程图。
[0016]图2为ResNet残差模块和改进的ResNet模块示意图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的小目标检测方法,其特征在于:该方法具体包括以下步骤:步骤1、使用目标检测数据集以及自己标注图像数据相结合的方法,构建小目标检测数据集,对数据集中的图像进行预处理,然后按照设定比例划分为训练集、测试集以及验证集;步骤2、构建卷积神经网络的网络结构,包括特征提取网络、特征融合网络以及小目标预测网络,并对参数进行初始化;使用改进型Resnet网络作为特征提取网络,将Resnet网络的Bottle Net网络架构分解成多个均匀的分支结构;特征融合网络采用一种基于通道和空间注意力的模块即CBAM模块,将CBAM模块嵌入到特征金字塔网络FPN中进行多尺度预测,对多层间的信息进行融合;步骤3、将训练集中的训练样本输入到初始化的卷积神经网络中,根据网络传播流程计算出各部分损失,并根据损失来调整各个参数,从而得到最佳的网络参数;然后在测试集合中进行测试,以及在验证集合中进行验证,最终得到训练好的神经网络模型;步骤4、利用训练好的深度卷积神经网络模型检测图像中的小目标,得到小目标检测框、分类以及置信度信息并在图像中标注出来。2.根据权利要求1所述的基于注意力机制的小目标检测方法,其特征在于,所述步骤1,具体包括以下步骤:(1.1)获取目标检测图像,构建小目标检测数据集:收集COCO数据集中的小目标对象的图像数据来构建小目标检测数据集;(1.2)对小目标检测数据集进行预处理:对采集获取的图像数据进行处理,包括放缩、填充处理和归一化;归一化是指将图像数据格式转换为统一的图像数据格式,以及采用归一化公式对图像样本中的每一个像素点进行归一化;(1.3)划分训练集、测试集和验证集:根据数据集的大小通过不同的方式进行划分,如果当数据量不大于一万的时候将训练集、验证集以及测试集划分为3:1:1;若是数据量大于一万,将训练集、验证集、测试集的比例调整为98:1:1。3.根据权利要求1所述的基于注意力机制的小目标检测方法,其特征在于,所述步骤2,具体包括以下步骤:(2.1)构建特征提取网络,该特征提取网络对输入图像的深、浅层语义特征低进行提取;(2.2)构建特征融合网络,将特征提取网络获得的深层语义信息进行上采样,然后和浅层的细节信息进行融合,获得最终的特征图;(2.3)构建小目标预测网络,小目标预测网络分为两部分,一是回归任务模块,用于对目标框进行定位,另一个是分类模块,用于对目标框进行目标分类;特征融合网络得到的特征图作为输入,小目标检测网络通过这些特征获得最终的检测结果。4.根据权利要求3所述的基于注意力机制的小目标检测方法,其特征在于,步骤(2.1)所述构建特征提取网络,具体如下:特征提取网络使用改进的Resnet网络,整个特征提取网络由多个残差模块构成,传统残差模块的前向传播公式如下:y=F(x,w)+x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
其中x,y分别为输入和输出,F(x,w)为一般神经网络前向传播公式,w为传播相关参数;将Resnet网络的BottleNet网络架构分解成多个均匀的分支结构,参考深度可分离卷积,并利用分组卷积,通过变量基数来控制组的数量,即每个分支产生的特征图的通道数为n,n>1;则残差模块的前向传播公式为:其中x,y分别为输入和输出,F(x,w
i
)为各个分支的神经网络前向传播公式,w
i
为各个分支传播相关参数,也就是网络中需要训练的参数;特征提取网络还包括卷积模块和池化模块:卷积模块的目的是提取图像的特征,根据不同的卷积核、不同的计算方式,得到不同的特征提取图;池化模块夹在连续的卷积模块中间,用于压缩数据和参数的量;将上述的卷积模块、池化模块以及改进残差模块,按照表1格式构建特征提取网络,其中conv1、conv2_x、conv3_x、conv4_x、conv5_x分别表示五个由多个卷积层组成的模块,max pooling表示最大值池化,stride为池化步长;表1如表1所示,特征提取网络共有49层卷积神经网络层,还有一层最大池化层。5.根据权利要求3所述的基于注意力机制的小目标检测方法,其特征在于,步骤(2.2)所述构建特征融合网络,具体如下:

在特征融合的过程中使用双线性插值的上采样方法,双线性插值就是做两次线性变
换,先在X轴上做一次线性变换,求出每一行的R点:再通过一次线性变换求出在该区域中的P点:其中(x,y)表示待插入位置,P
11
,P
12
,P
21
,P
22
分别是双线性插值法中待插入位置4个角点,其坐标分别为(x1,y1),(x1,y2),(x2,y1),(x2,y2),f(
·
)表示
·
处的像素值,T1为P
11
与P
21
的中点,T2为P
11
与P
22
的中点;

在进行特征图融合时,采用一种基于通道和空间注意力的模块,称为CBAM模块,CBA...

【专利技术属性】
技术研发人员:李军刘杰强李臣岳张书恒张礼轩
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1