当前位置: 首页 > 专利查询>南通大学专利>正文

一种耦合注意力和上下文的轻量化小目标检测方法技术

技术编号:30908843 阅读:21 留言:0更新日期:2021-11-22 23:55
本发明专利技术公开的一种耦合注意力和上下文的轻量化小目标检测方法,包括生成标签数据

【技术实现步骤摘要】
一种耦合注意力和上下文的轻量化小目标检测方法


[0001]本专利技术涉及图像目标检测领域,具体为一种耦合注意力和上下文的轻量化小目标检测方法。

技术介绍

[0002]目标检测又称目标识别是图像处理和计算机视觉领域中的基本任务之一,它用于在给定图像中查找目标类别并标定目标位置;近几年,基于深度学习的目标检测技术取得了很大的突破,总体可划分为两类:两阶段模型和单阶段模型。
[0003]两阶段模型通常能保证目标检测质量,它通过提取建议区和对其进行分类完成检测任务;提取建议区的方法有很多,比如滑动窗口,选择性搜索(Van De Sande等,2011),边缘检测(Zitnick等,2014),目标物颜色和形状(Che等,2020)等。在此基础上,训练分类器进行分类与回归;使用较广泛的分类器包括支撑向量机(Support Vector Machine,SVM)和卷积神经网络(Convolutional Neural Network,CNN)。两阶段模型代表性方法包括R

CNN系列模型,如R

CNN、Fast R

CNN、Faster R

CNN(Girshick等,2014;Girshick等,2015;Ren等,2015)等和SPP Net模型(He等,2015)。
[0004]相对于两阶段模型,单阶段模型不需要提取建议区,只利用单一网络即可直接快速输出目标类别和相应的位置;这类模型根据是否使用锚框(即先验框)又可分为无锚框模型和有锚框模型;前者主要以YOLO(You Only Look Once)模型(Redmon等,2016)为代表,后者则以单发多框检测(Single Shot Multibox Detector,SSD)模型(Liu等,2016)和YOLO V2

V5(Redmon等,2017;Redmon等,2018;Bochkovskiy等,2020)等为代表;无锚框模型不需要预先估计边框先验信息,模型参数体量较小,但容易产生目标漏检和误检;相比之下,有锚框模型虽能提高目标检测精度,但需要边框先验信息,会增加模型体量和复杂度。
[0005]上述模型在目标检测业务应用中各有利弊,单阶段模型的检测精度不如两阶段模型高,而两阶段模型的实时性不如单阶段模型强。在检测小尺寸目标物方面,上述模型的检测性能表现都差强人意;以VOC 2007数据集中的水瓶(Bottle)检测为例,该目标物在图像中的平均面积占比低于5%,在相关参考文献中,上述模型的检测精度(Average precision,AP)不足0.6,这意味着深度学习模型在小目标检测方面具有较大的局限性;为进一步提高检测精度,多种先进技术被提出,如超像素标注(Yan等,2015),特征金字塔(Lin等,2017),注意力机制(Wang等,2017;Woo等,2018),上下文信息(Lin等,2019)等。通过在骨干网络中耦合上述模块可以提高检测精度;然而上述模块的使用需要谨慎行事,贸然使用很可能会显著增加模型参数体量,延长模型训练和运行时间,甚至还可能会进一步降低模型的检测精度。
[0006]由此可见,现有的深度学习模型在小目标检测方面的应用性并不强。虽然有一些可用于提高检测精度的先进技术被提出,但如何最优化使用它们仍面临巨大困难,尤其是在协调精度、速度、体量和复杂度等方面,为此需要作进一步的技术优化。

技术实现思路

[0007]专利技术目的:本专利技术的目的是为了解决现有技术中的不足,提供了一种耦合注意力和上下文的轻量化小目标检测方法,以解决现有目标检测方法在检测小目标方面存在的召回率较低、精准率不高、运行效率低下等技术问题。
[0008]技术方案:本专利技术所述的一种耦合注意力和上下文的轻量化小目标检测方法,包括以下步骤:(1)生成标签数据:根据获取的图像数据,利用图像标注工具在图像数据中标注小目标物位置,生成目标物图像

标签数据;(2)图像预处理:对步骤1中的图像数据进行增强处理,包括图像去燥、图像锐化和图像均衡化等操作;(3)参数初始化:对检测方法中涉及到的参数进行初始化;(4)创建数据集:对步骤2的图像

标签数据进行图像

标签筛选,确保图像数据和标签数据一一对应。根据步骤3设置的初始参数,对图像进行尺寸调整和通道归一化,将标签数据转化为格网数据。根据训练集和测试集比例将数据集划分为训练数据和测试数据;(5)构建目标检测模型:模型框架记为BatNet,它主要包括骨架网络,注意力机制模块和上下文聚合网络三部分。骨架网络由轻量级的Conv1模块,一系列串联的Block模块和Regressor模块等构成。注意力机制模块采用Woo等(2018)设计的轻量级的卷积块注意力模块(Convolutional Block Attention Module,CBAM)。由于CBAM模块同时考虑了通道注意力和空间注意力机制,因此它相比单一的空间或通道注意力机制模块在捕获检测重点区域方面能获得更好的效果。上下文聚合网络由浅层的上下文特征图和深层的目标特征图进行通道聚合构成。利用上下文聚合网络,可以将浅层的目标物细节信息和深层的目标物语义信息相融合,从而减缓目标物信息在网络传递中的衰减,特别是小目标物信息;(6)模型训练:根据步骤3设置的初始参数,使用步骤4中得到的训练集来训练检测模型直到收敛,记录并保存最优的模型权重,获得最优的网络模型;(7)目标检测:加载已经保存的最优网络模型权重,利用本方法构建的目标检测模型进行目标物检测;(8)后处理:根据步骤3设置的初始参数,对检测出的边框进行非极大值抑制(Non

Maximum Suppression,NMS)去重处理,对边框的坐标进行空间变换,还原为图像绝对坐标,并使用步骤4中得到的测试集进行测试。
[0009]优选的,在上述步骤(1)中,标签数据格式为JSON或XML。
[0010]优选的,在上述步骤(2)中,图像去燥方法主要采用卷积核为3
×
3的中值滤波消除椒盐噪声;图像锐化主要使用4领域的拉普拉斯算子(Laplace Operator)突出地物轮廓;图像均衡化方法主要为全局直方图均衡化,以此保持图像各区域亮度一致性及提高部分区域图像清晰度。
[0011]优选的,在上述步骤(3)中,需要初始化的参数主要包括:分类数量CLS_NUM,格子尺寸S,每个格子预测的边框数B,图像尺寸IMG_SIZE,批次大小BATCH_SIZE,学习率LR,损失阈值LOSS_THR,置信度阈值CONF_THR,交并比阈值IOU_THR等。
[0012]优选的,在上述步骤(4)中,根据设置的图像尺寸IMG_SIZE对图像数据按最近邻域法进行重采样并对标签数据进行尺寸变换;图像数据经通道归一化后可转换为值域为[

1,
1]的张量;根据设置的格网数S将标签数据转化为格网数据,同时将标签边框坐标由图像绝对坐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种耦合注意力和上下文的轻量化小目标检测方法,其特征在于:包括以下步骤:(1)生成标签数据:根据获取的图像数据,利用图像标注工具在图像数据中标注小目标物位置,生成目标物图像

标签数据;(2)图像预处理:对步骤1中的图像数据进行增强处理,包括图像去燥、图像锐化和图像均衡化操作;(3)参数初始化:对检测方法中涉及到的参数进行初始化;(4)创建数据集:对步骤2的图像

标签数据进行图像

标签筛选,确保图像数据和标签数据一一对应;根据步骤3设置的初始参数,对图像进行尺寸调整和通道归一化,将标签数据转化为格网数据;根据训练集和测试集比例将数据集划分为训练数据和测试数据;(5)构建目标检测模型:模型框架记为BatNet,它主要包括骨架网络,注意力机制模块和上下文聚合网络三部分;骨架网络由轻量级的Conv1模块、一系列串联的Block模块和Regressor模块构成;注意力机制模块采用轻量级的卷积块注意力模块;上下文聚合网络由浅层的上下文特征图和深层的目标特征图进行通道聚合构成;利用上下文聚合网络,可以将浅层的目标物具象信息和深层的目标物语义信息相融合,从而减缓目标物信息在网络传递中的衰减,特别是小目标物信息;(6)模型训练:根据步骤3设置的初始参数,使用步骤4中得到的训练集来训练检测模型直到收敛,记录并保存最优的模型权重,获得最优的网络模型;(7)目标检测:加载已经保存的最优网络模型权重,利用步骤5构建的目标检测模型进行目标物检测;(8)后处理:根据步骤3设置的初始参数,对检测出的边框进行非极大值抑制去重处理,对边框的坐标进行空间变换,还原为图像绝对坐标,并使用步骤4中得到的测试集进行测试。2.根据权利要求1所述的一种耦合注意力和上下文的轻量化小目标检测方法,其特征在于:所述步骤(1)中,标签数据格式为JSON或XML。3.根据权利要求1所述的一种耦合注意力和上下文的轻量化小目标检测方法,其特征在于:所述步骤(2)中,图像去燥方法主要采用卷积核为3
×
3的中值滤波消除椒盐噪声;图像锐化主要使用4领域的拉普拉斯算子(Laplace Operator)突出地物轮廓;图像均衡化方法主要为全局直方图均衡化,以此保持图像各区域亮度一致性及提高部分区域图像清晰度。4.根据权利要求1所述的一种耦合注意力和上下文的轻量化小目标检测方法,其特征在于:所述步骤(3)中,需要初始化的参数主要包括:分类数量CLS_NUM,格子尺寸S,每个格子预测的边框数B,图像尺寸IMG_SIZE,批次大小BATCH_SIZE,学习率LR,损失阈值LOSS_THR,置信度阈值CONF_THR,交并比阈值IOU_THR。5.根据权利要求1所述的一种耦合注意力和上下文的轻量化小目标检测方法,其特征在于:所述步骤(4)中,根据设置的图像尺寸IMG_SIZE对图像数据按最近邻域法进行重采样并对标签数据进行尺寸变换;图像数据经通道归一化后可转换为值域为[

1,1]的张量;根据设置的格网数S将标签数据转化为格网数据,同时将标签边框坐标由图像绝对坐标变换为格网相对坐标。
6.根据权利要求1所述的一种耦合注意力和上下文的轻量化小目标检测方法,其特征在于:所述步骤(5)中,骨架网络由Conv1模块、Block1模块、Block2模块、Block3模块、Block4模块和Regressor模块串联构成;注意力机制模块包括Attention1和Attention2;Attention1和Attention2分别连接在Conv1模块和Block1模块后面;上下文聚合网络包括Feature Fusion1和Feature Fusion2;Feature ...

【专利技术属性】
技术研发人员:车明亮王英利张驰李凯隆郭有志
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1