一种基于度量学习的无监督目标检测模型训练方法技术

技术编号：39712806 阅读：8 留言：0更新日期：2023-12-17 23:21

本发明专利技术公开了一种基于度量学习的无监督目标检测模型训练方法，其包括以下步骤：

全部详细技术资料下载

【技术实现步骤摘要】
一种基于度量学习的无监督目标检测模型训练方法

[0001]本专利技术涉及图像识别领域，尤其是涉及一种基于度量学习的无监督目标检测模型训练方法
。

技术介绍

[0002]近年来，目标检测已经逐步成为计算机视觉领域的重要研究课题，并且已经取得广泛应用，例如工业互联网，安防，医学辅助诊断，遥感影像分析等
。
目标检测主要是从视觉图像或视频中识别感兴趣目标的位置及类别
。
由于具有对图像特征的深度提取能力，基于深度学习在目标检测中取得了巨大的进展
。
然而，目前目标检测的主流模型训练时仍然需要大量的人工标注数据，标注的巨大成本和目标检测应用的中感兴趣目标的不确定性使得目标检测模型训练成本高，应用推广难
。
此外，近些年来基于多模态预训练大模型开启了深度学习利用多模态数据图文信息的能力
。
然而，目前的预训练大模型对于目标的特征表达能力，及对目标的细节信息提取能力仍有不足，限制了其在实际应用的效果
。
[0003]针对以上两个难点，如何在不采用人工标注数据的情况下，提升目标检测模型对目标特征及细节信息的表达能力，提升目标检测的效果，是目前所需要亟待解决的问题
。

技术实现思路

[0004]本专利技术主要是解决现有技术所存在的难以在不采用人工标注数据的情况下完成目标检测模型的训练
、
提升目标检测的效果的技术问题，提供一种基于度量学习的无监督目标检测模型训练方法，可以脱离人工标注数据仍然...

【技术保护点】

【技术特征摘要】
1.
一种基于度量学习的无监督目标检测模型训练方法，其特征在于，包括以下步骤：
S1、
通过开源预训练模型对训练数据集所包含的图片进行目标提取，获得伪标签，训练数据集为图文对，即包含图片和描述图片的文本标签，伪标签包括目标的坐标信息和目标的描述文本；
S2、
待训练目标检测模型包括图像编码骨干模型
、
特征金字塔网络和检测头；待训练目标检测模型在随机初始化或者加载预训练模型检测点后，将训练数据集的图片输入到待训练目标检测模型中，所得到的结果包括整体图片
i
和各目标的区域图片；目标
j
为待训练目标检测模型得到的目标之一，将目标
j
与开源预训练模型得到的各目标进行对比，将重合度大于
0.5
的目标
j
’
的伪标签作为目标
j
的伪标签，以同样方式确定待训练目标检测模型得到的所有目标的伪标签，然后提取待训练目标检测模型得到的目标的特征向量；
S3、
基于度量模型对待训练目标检测模型进行训练，对于每一个目标
j
，其损失函数为：
L
＝
λ
metric
·
L
metric
+
λ
L1
·
L
L1
+
λ
giou
·
L
giou
+
λ
cntrst
·
L
cntrst
其中，
L
metric
为目标框的三元组相似性度量学习损失，
λ
metric
为
L
metric
对应的权重；
L
L1
为目标框的位置
L1
损失，
λ
L1
为
L
L1
对应的权重；
L
giou
为目标框的位置
GIOU
损失，
λ
giou
为
L
giou
对应的权重；
L
cntrst
为图文对比损失，
λ
cntrst
为
L
cntrst
对应的权重
。2.
根据权利要求1所述的一种基于度量学习的无监督目标检测模型训练方法，其特征在于，所述步骤
S2
中，提取目标
j
的特征向量具体过程为：
S201、
将整体图片
i
输入到图像编码骨干模型，抽取每个输出层输出的特征得到图片
i
的整体多层特征图；
S202、
依据目标
j
的区域图片在图片
i
中的位置，从整体多层特征图中截取得到目标多层特征图；
S203、
使用特征金字塔网络对目标多层特征图进行提取池化，得到目标
j
的特征向量
。3.
根据权利要求1或2所述的一种基于度量学习的无监督目标检测模型训练方法，其特征在于，所述三元组相似性度量学习损失为：
L
metric
＝
max(S(a,p)
‑
S(a,n)+margin,0)
式中
max
为取...

【专利技术属性】
技术研发人员：赵天成，张倩倩，张璐，刘鹏，
申请(专利权)人：杭州联汇科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人