基于任意四边形回归的目标检测与精确定位方法技术

技术编号:36703573 阅读:10 留言:0更新日期:2023-03-01 09:22
本发明专利技术涉及一种基于任意四边形回归的目标检测与精确定位方法,首先,进行图像预处理,划分图像数据训练集、验证集和测试集之后,针对数据集的特点,采用相应的数据增强手段,添加基于目标坐标的随机裁剪、亮度扰度与亮度直方图均衡化等。其次,构建神经网络模型,主干网络提取特征之后,构造关键点检测分支,通过热力图回归直接预测目标区域的四个关键点位置,使得神经网络具备直接预测任意四边形的能力,从而精确定位目标的关键区域。最后,改进与优化算法模型,扩大特征尺寸并局部映射,基于注意力机制进行特征融合,利用多任务多阶段的混合级联结构与分支间的信息交互进一步提升目标检测定位精度。标检测定位精度。标检测定位精度。

【技术实现步骤摘要】
基于任意四边形回归的目标检测与精确定位方法


[0001]本专利技术属于计算机视觉领域、目标检测
,涉及一种基于任意四边形回归的目标检测与精确定位方法。

技术介绍

[0002]目标检测是计算机视觉领域的基本任务之一,近些年随着深度学习技术的发展,目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。
[0003]随着计算机视觉分类识别任务的深入研究,基于卷积神经网络检测算法的研究已经从算法的通用目标检测精度提升和检测速度提升,逐渐拓展到特定领域的目标检测。一些场景的目标普遍带有任意旋转的多角度,普通正框检测的方法无法满足需求,比如遥感目标检测、货架商品检测、自然场景下的文本检测、顶拍鱼眼镜头下的人体或物体检测。与通用目标检测相比,特定目标检测有更为具体的研究背景,其研究内容也往往是针对这些特殊背景展开。
[0004]以工业应用中的仪表检测识别任务为例,当前,深度学习方法广泛应用到仪表检测定位中,采取通用目标检测任务中位置预测方式,定位仪表所在的最小外接矩形框,效果远高于传统检测定位方式。但是由于仪表检测任务具有一定特殊性,需要准确获取仪表的表盘位置,对其进行倾斜校正以方便后续读数识别等任务。只定位包围仪表的最小矩形具有很大的局限性,可能会对后续任务带来不良影响,需要更加精确的定位结果。
[0005]利用计算机视觉技术进行目标检测与精确定位的难点主要有两方面:第一,目标由于角度的倾斜很可能会发生形变,需要进行目标区域倾斜校正,因此,算法要具备可以预测任意四边形位置的能力,通用目标检测技术只预测目标的最小包围框,这对于特定检测定位任务而言其定位的效果难以满足后续任务的要求,无法仅利用包围目标最小包围框位置信息进一步校正成正视角度下的目标图像。此外,即便使用实例分割技术,可以获取目标的位置掩码,但面临如何减少利用位置掩码进行透视变换时引入误差的问题;第二,应用场景不同,室内外光照条件不同,目标所在环境复杂存在大量的干扰信息,成像设备与目标的距离不同,目标的尺度会发生较大变化存在大量的小目标,而且目标种类多样外形多变,这些不良条件对方法的鲁棒性提出了挑战。

技术实现思路

[0006]要解决的技术问题
[0007]为了避免现有技术的不足之处,本专利技术提出一种基于任意四边形回归的目标检测与精确定位方法。首先,对目标图片数据进行四边形位置标注,然后对图像进行预处理操作,主要包括图像数据训练集、验证集和测试集的划分以及特定的图像增强处理;然后,构建基于任意四边形回归的仪表检测网络模型,包括特征提取网络模块、FPN模块、RPN模块、ROI Align池化层和基于全连接层的分类回归分支以及基于全卷积网络的关键点检测分支Grid Head;接着,利用增强后的图像数据集对网络模型进行训练,得到训练好的网络;最
后,利用训练好的网络对待检测目标图像进行处理,得到最终的检测结果。本专利技术具有检测任意四边形的能力,能够使用预测的四边形位置信息方便地得到目标关键区域的正视图,为后续处理提供便利;此外,进行网络结构调整与优化,扩大输入关键点检测分支的特征尺寸并根据坐标进行局部区域映射,基于多重注意力机制进行多重特征融合,利用多任务多阶段的混合级联结构与分支间的信息交互,从多种角度提高算法性能,提高各种不良条件下方法的检测精度与鲁棒性。
[0008]技术方案
[0009]一种基于任意四边形回归的目标检测与精确定位方法,其特征在于步骤如下:
[0010]步骤1:构建基于任意四边形回归的目标检测网络模型,该模型基于Faster RCNN网络模型搭建,于Faster RCNN网络的ROI Align池化层与边框回归分支的输出端连接基于多重注意力机制特征交互融合的关键点检测分支Grid Head;
[0011]所述关键点检测分支Grid Head基于全卷积网络搭建,包括用于特征提取的卷积序列、增大特征局部映射模块、特征交互融合模块、改变特征尺寸的反卷积层以及混合级联结构;使用卷积序列对输入的待检测图像特征进行特征提取,特征提取后增大特征并进行局部映射,再使用基于多重注意力机制的特征融合模块对提取的特征进行多级融合处理,将融合输出的特征图输入到多层反卷积层,输出用于提取关键点坐标的热力图,利用多任务多阶段的混合级联结构与信息交互结合边框回归结果进一步提精,将最终得到的热力图转换得到待检测目标关键区域的任意四边形四个顶点Grid Point的坐标信息;
[0012]步骤2:于监控设备下自行采集目标图片数据并整理,划分图像训练集、验证集和测试集后,对每一幅目标图像分别进行相应的数据增强手段,增强处理前后的图像共同构成目标图像数据集;
[0013]步骤3:以步骤2得到的图像数据集中的训练集与验证集为输入,采用随机梯度下降法对步骤1构建的基于任意四边形回归的目标检测网络模型进行训练,得到训练好的网络模型,使用测试集对得到的网络模型进行性能评估;
[0014]步骤4:将待检测的目标图像输入到步骤3训练好的网络模型中,输出得到类别信息和目标关键区域任意四边形的顶点坐标,在完成目标检测的基础上进一步精确定位。
[0015]所述步骤1的增大特征局部映射的具体过程如下:
[0016]对于待检测的目标来说,所有的Grid Point共享一个相同的特征表达区域,为了解决特征表达区域的问题,改变热力图预测的关键点位置坐标与该点对应于原图位置坐标的映射关系,过程为:
[0017]首先,将输入Grid Head的特征图的宽高扩大到原来的两倍,增大特征图在原图上映射的区域,将Grid Point包含在RPN网络生成的候选框内部;
[0018]然后,将放大后的特征图按照Grid Point所在的位置局部映射,对于每个Grid Point,新的输出代表了整张特征图四分之一的区域,四个Grid Point对应的热力图由完整特征的不同区域生成,而不是所有的关键点共享一个相同的特征表达区域;
[0019]处理后,每个Grid Point的表达能近似地视为一个归一化的过程,在不增加计算量的同时,提升了定位精度。
[0020]所述步骤1的基于多重注意力机制特征交互融合的具体过程如下:
[0021]用于特征提取的卷积序列由多个卷积层构成,对输入的待检测图像特征F
din
进行
特征提取,提取后的特征记为F
d
,特征提取时先增大特征并进行局部映射,再使用基于多重注意力机制的特征融合模块对提取的特征F
d
进行多级融合处理,具体如下:
[0022]将特征F
d
按照通道平均分成M组,与第i个Grid Point对应的特征图记为F
di
,与源点集合S
i
中的第j个点对应的特征图记为F
dj
,i=1,2,...,M,M为Grid Point点数,j=1,2,...,K
i
,K
i
为源点集合S
...

【技术保护点】

【技术特征摘要】
1.一种基于任意四边形回归的目标检测与精确定位方法,其特征在于步骤如下:步骤1:构建基于任意四边形回归的目标检测网络模型,该模型基于Faster RCNN网络模型搭建,于Faster RCNN网络的ROI Align池化层与边框回归分支的输出端连接基于多重注意力机制特征交互融合的关键点检测分支Grid Head;所述关键点检测分支Grid Head基于全卷积网络搭建,包括用于特征提取的卷积序列、增大特征局部映射模块、特征交互融合模块、改变特征尺寸的反卷积层以及混合级联结构;使用卷积序列对输入的待检测图像特征进行特征提取,特征提取后增大特征并进行局部映射,再使用基于多重注意力机制的特征融合模块对提取的特征进行多级融合处理,将融合输出的特征图输入到多层反卷积层,输出用于提取关键点坐标的热力图,利用多任务多阶段的混合级联结构与信息交互结合边框回归结果进一步提精,将最终得到的热力图转换得到待检测目标关键区域的任意四边形四个顶点Grid Point的坐标信息;步骤2:于监控设备下自行采集目标图片数据并整理,划分图像训练集、验证集和测试集后,对每一幅目标图像分别进行相应的数据增强手段,增强处理前后的图像共同构成目标图像数据集;步骤3:以步骤2得到的图像数据集中的训练集与验证集为输入,采用随机梯度下降法对步骤1构建的基于任意四边形回归的目标检测网络模型进行训练,得到训练好的网络模型,使用测试集对得到的网络模型进行性能评估;步骤4:将待检测的目标图像输入到步骤3训练好的网络模型中,输出得到类别信息和目标关键区域任意四边形的顶点坐标,在完成目标检测的基础上进一步精确定位。2.根据权利要求1所述的一种基于任意四边形回归的目标检测与精确定位方法,其特征在于:所述步骤1的增大特征局部映射的具体过程如下:对于待检测的目标来说,所有的Grid Point共享一个相同的特征表达区域,为了解决特征表达区域的问题,改变热力图预测的关键点位置坐标与该点对应于原图位置坐标的映射关系,过程为:首先,将输入Grid Head的特征图的宽高扩大到原来的两倍,增大特征图在原图上映射的区域,将Grid Point包含在RPN网络生成的候选框内部;然后,将放大后的特征图按照Grid Point所在的位置局部映射,对于每个Grid Point,新的输出代表了整张特征图四分之一的区域,四个Grid Point对应的热力图由完整特征的不同区域生成,而不是所有的关键点共享一个相同的特征表达区域;处理后,每个Grid Point的表达能近似地视为一个归一化的过程,在不增加计算量的同时,提升了定位精度。3.根据权利要求1所述的一种基于任意四边形回归的目标检测与精确定位方法,其特征在于:所述步骤1的基于多重注意力机制特征交互融合的具体过程如下:用于特征提取的卷积序列由多个卷积层构成,对输入的待检测图像特征F
din
进行特征提取,提取后的特征记为F
d
,特征提取时先增大特征并进行局部映射,再使用基于多重注意力机制的特征融合模块对提取的特征F
d
进行多级融合处理,具体如下:将特征F
d
按照通道平均分成M组,与第i个Grid Point对应的特征图记为F
di
,与源点集合S
i
中的第j个点对应的特征图记为F
dj
,i=1,2,

,M,M为Grid Point点数,j=1,2,

,K
i
,K
i
为源点集合S
i
中包含的源点个数;
所述的源点为Grid网格中与第i个Grid Point距离为1的点,所有源点构成源点集合;然后,将特征图F
dj
通过卷积层,得到对应的新的待融合特征图,记为T
d:j

i
(F
dj
);接着,将特征图F
di
与融合的特征图T
d:j

i
(F
dj
)按下式进行相加融合处理,i=1,2,

,M,得到融合后的特征图F

di
:然后,对特征图F

di
按照下式进行二次相加融合处理,得到二级融合特征图F

di
:其中,T

j

i
(F

dj
)表示特征图F

dj
通过卷积层得到的新的二级待融合特征图,卷积层结构与前面得到特征图T
d:j

i
(F
dj
)中的卷积层结构相同,i=1,2,

,M,j=1,2,

,K
i
;对于二次融合得到的多级特征{F
di
,F

dj
,F

di

【专利技术属性】
技术研发人员:李晖晖冯昱霖刘航
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1