【技术实现步骤摘要】
一种耦合注意力和上下文的轻量化小目标检测方法
[0001]本专利技术涉及图像目标检测领域,具体为一种耦合注意力和上下文的轻量化小目标检测方法。
技术介绍
[0002]目标检测又称目标识别是图像处理和计算机视觉领域中的基本任务之一,它用于在给定图像中查找目标类别并标定目标位置;近几年,基于深度学习的目标检测技术取得了很大的突破,总体可划分为两类:两阶段模型和单阶段模型。
[0003]两阶段模型通常能保证目标检测质量,它通过提取建议区和对其进行分类完成检测任务;提取建议区的方法有很多,比如滑动窗口,选择性搜索(Van De Sande等,2011),边缘检测(Zitnick等,2014),目标物颜色和形状(Che等,2020)等。在此基础上,训练分类器进行分类与回归;使用较广泛的分类器包括支撑向量机(Support Vector Machine,SVM)和卷积神经网络(Convolutional Neural Network,CNN)。两阶段模型代表性方法包括R
‑
CNN系列模型,如R
‑
CNN、Fast R
‑
CNN、Faster R
‑
CNN(Girshick等,2014;Girshick等,2015;Ren等,2015)等和SPP Net模型(He等,2015)。
[0004]相对于两阶段模型,单阶段模型不需要提取建议区,只利用单一网络即可直接快速输出目标类别和相应的位置;这类模型根据是否使用锚框(即先验框)又可分为无锚框模型和 ...
【技术保护点】
【技术特征摘要】
1.一种耦合注意力和上下文的轻量化小目标检测方法,其特征在于:包括以下步骤:(1)生成标签数据:根据获取的图像数据,利用图像标注工具在图像数据中标注小目标物位置,生成目标物图像
‑
标签数据;(2)图像预处理:对步骤1中的图像数据进行增强处理,包括图像去燥、图像锐化和图像均衡化操作;(3)参数初始化:对检测方法中涉及到的参数进行初始化;(4)创建数据集:对步骤2的图像
‑
标签数据进行图像
‑
标签筛选,确保图像数据和标签数据一一对应;根据步骤3设置的初始参数,对图像进行尺寸调整和通道归一化,将标签数据转化为格网数据;根据训练集和测试集比例将数据集划分为训练数据和测试数据;(5)构建目标检测模型:模型框架记为BatNet,它主要包括骨架网络,注意力机制模块和上下文聚合网络三部分;骨架网络由轻量级的Conv1模块、一系列串联的Block模块和Regressor模块构成;注意力机制模块采用轻量级的卷积块注意力模块;上下文聚合网络由浅层的上下文特征图和深层的目标特征图进行通道聚合构成;利用上下文聚合网络,可以将浅层的目标物具象信息和深层的目标物语义信息相融合,从而减缓目标物信息在网络传递中的衰减,特别是小目标物信息;(6)模型训练:根据步骤3设置的初始参数,使用步骤4中得到的训练集来训练检测模型直到收敛,记录并保存最优的模型权重,获得最优的网络模型;(7)目标检测:加载已经保存的最优网络模型权重,利用步骤5构建的目标检测模型进行目标物检测;(8)后处理:根据步骤3设置的初始参数,对检测出的边框进行非极大值抑制去重处理,对边框的坐标进行空间变换,还原为图像绝对坐标,并使用步骤4中得到的测试集进行测试。2.根据权利要求1所述的一种耦合注意力和上下文的轻量化小目标检测方法,其特征在于:所述步骤(1)中,标签数据格式为JSON或XML。3.根据权利要求1所述的一种耦合注意力和上下文的轻量化小目标检测方法,其特征在于:所述步骤(2)中,图像去燥方法主要采用卷积核为3
×
3的中值滤波消除椒盐噪声;图像锐化主要使用4领域的拉普拉斯算子(Laplace Operator)突出地物轮廓;图像均衡化方法主要为全局直方图均衡化,以此保持图像各区域亮度一致性及提高部分区域图像清晰度。4.根据权利要求1所述的一种耦合注意力和上下文的轻量化小目标检测方法,其特征在于:所述步骤(3)中,需要初始化的参数主要包括:分类数量CLS_NUM,格子尺寸S,每个格子预测的边框数B,图像尺寸IMG_SIZE,批次大小BATCH_SIZE,学习率LR,损失阈值LOSS_THR,置信度阈值CONF_THR,交并比阈值IOU_THR。5.根据权利要求1所述的一种耦合注意力和上下文的轻量化小目标检测方法,其特征在于:所述步骤(4)中,根据设置的图像尺寸IMG_SIZE对图像数据按最近邻域法进行重采样并对标签数据进行尺寸变换;图像数据经通道归一化后可转换为值域为[
‑
1,1]的张量;根据设置的格网数S将标签数据转化为格网数据,同时将标签边框坐标由图像绝对坐标变换为格网相对坐标。
6.根据权利要求1所述的一种耦合注意力和上下文的轻量化小目标检测方法,其特征在于:所述步骤(5)中,骨架网络由Conv1模块、Block1模块、Block2模块、Block3模块、Block4模块和Regressor模块串联构成;注意力机制模块包括Attention1和Attention2;Attention1和Attention2分别连接在Conv1模块和Block1模块后面;上下文聚合网络包括Feature Fusion1和Feature Fusion2;Feature ...
【专利技术属性】
技术研发人员:车明亮,王英利,张驰,李凯隆,郭有志,
申请(专利权)人:南通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。