当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于定位预训练的弱监督小样本目标检测系统和方法技术方案

技术编号:39260082 阅读:32 留言:0更新日期:2023-10-30 12:11
本发明专利技术属于机器学习技术领域,具体为一种基于定位预训练与渐进式优化策略的弱监督小样本目标检测方法与系统。本发明专利技术将弱监督学习机制引入到小样本深度目标检测框架,建立了一套准确率高的弱监督小样本目标检测系统。本发明专利技术方法框架简单、使用方便、可扩展性强、可解释性强,并在两个主流视觉属性数据集的弱监督小样本目标检测的结果上,都超过了现有方法。本发明专利技术能够为目标检测技术在军事和工业应用领域,提供基础框架和算法的支持,也能很容易地扩展到其他小样本学习任务上。扩展到其他小样本学习任务上。扩展到其他小样本学习任务上。

【技术实现步骤摘要】
一种基于定位预训练的弱监督小样本目标检测系统和方法


[0001]本专利技术属于机器学习
,具体涉及一种弱监督小样本目标检测系统和方法。

技术介绍

[0002]目标检测是计算机视觉中的一项基本任务,在许多实际场景中取得了巨大的成功。目前,基于深度学习的方法,如Faster R

CNN、YOLO和DETR已经成为主流。通常,这些方法依赖于大量标注完备的数据来训练模型,以能够准确识别和定位目标。然而收集和标注此类数据非常昂贵且耗时,这限制了它们的应用。近年来,小样本目标检测(FSOD)受到了广泛的关注,其目的是仅使用少量新类的标注数据来实现有效的目标检测。然而为了训练模型,研究人员仍然必须为基类收集大量强标注的训练数据,包括每个训练图像中每个目标类的每个对象的类别和边界框,这导致了巨大的注释成本。此外,小样本目标检测模型的性能在很大程度上依赖于边框标注的质量。但是,由于图像的复杂性和对象形态的多样性,很难保证边框标注的质量,这不可避免地会影响模型的性能。弱监督学习为解决这一类问题提供了一套系统的框架,无需全标注的训练数据,只本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于定位预训练的弱监督小样本目标检测系统,其特征在于,是一种新型目标检测系统,记为WFS

DETR,是在基于transformer的目标检测器基础上,设计并使用注意力引导的定位预训练模块和定位蒸馏学习模块来训练模型的目标定位能力,设计并使用双重因素驱动的渐近优化模块来训练模型的图像分类能力,设计并使用混合损失函数模块来协调不同模块部件,驱动整体端到端训练;其中:所述注意力引导的定位预训练模块,记为ALN,使用视觉transformer对目标进行精确定位;具体地,ALN由多个标准视觉transformer块组合而成,其整体被连接在特征提取网络的第三个阶段后;将特征提取网络输出的特征与类别标记一同输入ALN中,再利用视觉transformer的特性为图像中的前景目标与背景输出不同大小的注意力得分图,根据注意力得分图,取得分高的区域为预测前景目标区域;所述定位蒸馏学习模块,通过数据增强与知识蒸馏,将定位预训练模块的定位能力蒸馏到DETR目标检测器中;具体地,将定位预训练模块ALN与DETR目标检测器联合训练;对定位预训练模块ALN的输出施加数据增强作为监督,使用前景判别损失和边框回归损失来训练DETR目标检测器,将定位预训练模块ALN中的目标定位能力蒸馏到DETR目标检测器中;所述双重因素驱动的渐近优化模块,联合考虑分类得分与目标完整性得分作为伪标签选择依据,合理地选择伪标签以驱动后续模型优化;具体地,双重因素驱动的渐近优化模块由三个优化子块组成,每个优化子块由一个优化分类器和一个优化前景判别器构成,在优化训练过程中,分类得分与前景判别得分相结合作为伪标签选择依据,以提高伪标签的质量,有效地驱动预测优化训练;所述混合损失模块,融合定位预训练损失、定位蒸馏损失、多实例学习损失、分类优化损失和定位优化损失;具体地,在预训练阶段,混合损失模块由定位预训练损失和定位蒸馏损失联合构成,其主要作用是赋予DETR目标检测器通用的目标定位能力;在优化训练阶段,混合损失模块由多实例学习损失、分类优化损失和定位优化损失联合构成,其主要目的是通过多实例学习和优化训练,赋予DETR目标检测器精确的分类能力;混合损失模块在不同阶段有着不同作用,凭借混合损失模块,最终DETR定位器在仅使用弱标注数据的情况下,实现精确的目标检测。2.根据权利要求1所述的弱监督小样本目标检测系统,其特征在于,设所述ALN由K个多头自注意力块堆叠构成,原始图像特征经过使用滑动窗口的视觉transformer特征提取网络的前三个阶段后被换分为P*P个图像块,将共计N(N=P*P)个图像块标记t
ns
与1个额外的类别标记t
c
进行拼接送入ALN中进行多头自注意力计算,计算过程如下:其中,W
Q
是查询转换矩阵权重,W
K
是对比转换矩阵权重,W
V
是赋值转换矩阵权重,Attention
multi
是多头自注意力操作,是注意力得分矩阵;的形状为取其后N列得到即经过注意力增强的图像块标记;接下来使用线性层映射为图像块标记赋予类别信息,并使用交叉熵损失函数对线性映射进行训练,训练过程如下:
其中,w
c
与w
i
是类别映射矩阵权重,T是矩阵转置操作,GAP是全局平均池化操作;D为矩阵的特征维度,N为图像标记块的总量,C为类别数量;经过训练后的线性层赋予类别信息,对K个视觉transformer块的注意力图取均值,得到取第一行与后N列即得到类别无关的注意力图,将类别无关的注意力图与含有类别信息的图像块标记相乘即得到类别相关的激活图,对类别激活图进行筛选,将低响应值的区域设置为背景,即获得高响应值区域,随后对高相应区域的所有点坐标,分别取横轴与纵轴方向的最大和最小值,根据这些极值点画出包围高相应值区域的最小包围矩形,即生成候选框,具体计算如下:其中,是类别无关的注意力图,是含有类别信息的图像块标记,Thr是阈值为0.15的筛选操作操作,MMR指最小包围矩形生成的过程。3.根据权利要求2所述的弱监督小样本目标检测系统,其特征在于,所述定位蒸馏学习模块,通过数据增强与知识蒸馏,将定位预训练模块的定位能力蒸馏到DETR目标检测器中,具体过程为:使用随机抖动对预训练目标定位模块ALN输出的候选框进行数据增强;对候选框最小横坐标x1,候选框最小纵坐标y1,候选框最大横坐标x2,候选框最大纵坐标y2施加四个方向的随机抖动,具体表示为:b
aug
=[x1±
α1*w,y1±
α2*h,x2±
α3*w,y2±
α4*h],
ꢀꢀꢀꢀꢀꢀꢀ
(4)其中,α(α1,α2,α3,α4)是抖动系数,w、h是原始候选框的宽度和高度,由原始候选框坐标计算得来:w=x2

x1,h=y2

y1;随后将增强框与模型输出框进行最优匹配并计算损失;具体表示为:体表示为:其中,y
i
是指第i个真实框及其类别的监督信息,是指第i个预测框及其类别的预测信息,o
i
指第i个真实框的前景完整性监督信息,指第i个预测框的前景完整性预测信息,b
i
指第i个真实框的边框坐标监督信息,指第i个预测框的边框坐标预测信息;通过上式(6)对预训练目标定位模块ALN与DETR目标检测器进行联合训练,ALN中的定位目标定位性能从ALN转移到目标检测器上,使得目标检测器进行类别无关的精确前景定位。4.根据权利要求3所述的弱监督小样本目标检测系统,其特征在于,所述采用双重因素驱动的渐近优化模块,联合考虑分类得分与目标完整性得分作为伪标签选择依据,合理地选择伪标签以驱动后续模型优化;具体为:
对于每张图像,使用经预训练获得通用目标定位能力的DETR检测器生成一系列候选框:其中,是边框坐标,是目标完整性得分,是分类得分,是检测得分;将实例级别的分类得分与检测得分相结合,得到对于图像级别的分类预测得分:将图像的类别标注作为监督信息,使用交叉熵损失即对DETR检测器进行图像分类训练:其中,是图像的真实类别监督信息,是预测的图像分类得分;为了生成更准确的建议框,构建K个优化层,包含目标类别得分优化预测器和目标完整性得分优化预测器,每层的输出表示为:其中,是优化边框预测,是优化目标完整性得分,是优化分类得分;将第K

1级的优化目标完整性得分与优化分类得分相结合作为第K

1级伪标签的选择依据...

【专利技术属性】
技术研发人员:周水庚张晨博张莹露张路关昊赵佳佳
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1