一种基于度量学习的无监督目标检测模型训练方法技术

技术编号:39712806 阅读:8 留言:0更新日期:2023-12-17 23:21
本发明专利技术公开了一种基于度量学习的无监督目标检测模型训练方法,其包括以下步骤:

【技术实现步骤摘要】
一种基于度量学习的无监督目标检测模型训练方法


[0001]本专利技术涉及图像识别领域,尤其是涉及一种基于度量学习的无监督目标检测模型训练方法


技术介绍

[0002]近年来,目标检测已经逐步成为计算机视觉领域的重要研究课题,并且已经取得广泛应用,例如工业互联网,安防,医学辅助诊断,遥感影像分析等

目标检测主要是从视觉图像或视频中识别感兴趣目标的位置及类别

由于具有对图像特征的深度提取能力,基于深度学习在目标检测中取得了巨大的进展

然而,目前目标检测的主流模型训练时仍然需要大量的人工标注数据,标注的巨大成本和目标检测应用的中感兴趣目标的不确定性使得目标检测模型训练成本高,应用推广难

此外,近些年来基于多模态预训练大模型开启了深度学习利用多模态数据图文信息的能力

然而,目前的预训练大模型对于目标的特征表达能力,及对目标的细节信息提取能力仍有不足,限制了其在实际应用的效果

[0003]针对以上两个难点,如何在不采用人工标注数据的情况下,提升目标检测模型对目标特征及细节信息的表达能力,提升目标检测的效果,是目前所需要亟待解决的问题


技术实现思路

[0004]本专利技术主要是解决现有技术所存在的难以在不采用人工标注数据的情况下完成目标检测模型的训练

提升目标检测的效果的技术问题,提供一种基于度量学习的无监督目标检测模型训练方法,可以脱离人工标注数据仍然完成对目标检测模型的训练过程

[0005]本专利技术针对上述技术问题主要是通过下述技术方案得以解决的:一种基于度量学习的无监督目标检测模型训练方法,包括以下步骤:
[0006]S1、
通过开源预训练模型对训练数据集所包含的图片进行目标提取,获得伪标签,训练数据集为图文对,即包含图片和描述图片的文本标签,伪标签包括目标的坐标信息和目标的描述文本;
[0007]S2、
待训练目标检测模型包括图像编码骨干模型

特征金字塔网络和检测头;待训练目标检测模型在随机初始化或者加载预训练模型检测点后
(
加载预训练模型检测点也表示待训练目标检测模型获得了基本参数,可以进行目标检测过程
)
,将训练数据集的图片输入到待训练目标检测模型中,所得到的结果包括整体图片
i
和各目标的区域图片;目标
j
为待训练目标检测模型得到的目标之一,将目标
j
与开源预训练模型得到的各目标进行对比,将重合度大于
0.5
的目标
j

的伪标签作为目标
j
的伪标签,以同样方式确定待训练目标检测模型得到的所有目标的伪标签,然后提取待训练目标检测模型得到的目标的特征向量;检测头用于从整体图片
i
中检测目标;一般是先将整体图片
i
输入到图像编码骨干模型中得到图片
i
的整体多层特征图,然后用特征金字塔网络从整体多层特征图中提取整体特征向量,最后检测头依据整体特征向量从整体图片
i
中检测目标;重合度为两者的交集除以两者的并集;如果有多个重合度大于
0.5
的伪标签则选取重合度最大的作为目标
j
的伪标签;没有
重合度大于
0.5
的伪标签则将此目标丢弃不加入训练;
[0008]S3、
基于度量模型对待训练目标检测模型进行训练,对于每一个目标
j
,其损失函数为:
[0009]L

λ
metric
·
L
metric
+
λ
L1
·
L
L1
+
λ
giou
·
L
giou
+
λ
cntrst
·
L
cntrst
[0010]其中,
L
metric
为目标框的三元组相似性度量学习损失,
λ
metric

L
metric
对应的权重;
L
L1
为目标框的位置
L1
损失,
λ
L1

L
L1
对应的权重;
L
giou
为目标框的位置
GIOU
损失,
λ
giou

L
giou
对应的权重;
L
cntrst
为图文对比损失,
λ
cntrst

L
cntrst
对应的权重

[0011]本方案适用于训练常规的任意目标检测模型,只需要目标检测模型符合包括图像编码骨干模型

特征金字塔网络和检测头三部分这个特点即可

开源预训练模型可以采用常规的开源并且经过训练的目标检测模型,只需要此开源预训练模型可以输出目标检测结果和描述文本即可

[0012]作为优选,所述步骤
S2
中,提取目标
j
的特征向量具体过程为:
[0013]S201、
将整体图片
i
输入到图像编码骨干模型,抽取每个输出层输出的特征得到图片
i
的整体多层特征图;
[0014]S202、
依据目标
j
的区域图片在图片
i
中的位置,从整体多层特征图中截取得到目标多层特征图;
[0015]S203、
使用特征金字塔网络对目标多层特征图进行提取池化,得到目标
j
的特征向量

[0016]作为优选,所述三元组相似性度量学习损失为:
[0017]L
metric

max(S(a,p)

S(a,n)+margin,0)
[0018]式中
max
为取最大值,
S
为计算括号中两个目标特征向量的余弦距离,具体公式为:
[0019][0020]式中,
T
表示转置,双竖线表示求向量长度,即
norm2

S(a,n)
的定义与
S(a,p)
相同,只是将
p
替换成
n

a
为基准目标样本的特征向量,
p
为正目标样本的特征向量,
n
为负目标样本的特征向量;
margin
为预设的间隔参数;训练过程中,对每一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于度量学习的无监督目标检测模型训练方法,其特征在于,包括以下步骤:
S1、
通过开源预训练模型对训练数据集所包含的图片进行目标提取,获得伪标签,训练数据集为图文对,即包含图片和描述图片的文本标签,伪标签包括目标的坐标信息和目标的描述文本;
S2、
待训练目标检测模型包括图像编码骨干模型

特征金字塔网络和检测头;待训练目标检测模型在随机初始化或者加载预训练模型检测点后,将训练数据集的图片输入到待训练目标检测模型中,所得到的结果包括整体图片
i
和各目标的区域图片;目标
j
为待训练目标检测模型得到的目标之一,将目标
j
与开源预训练模型得到的各目标进行对比,将重合度大于
0.5
的目标
j

的伪标签作为目标
j
的伪标签,以同样方式确定待训练目标检测模型得到的所有目标的伪标签,然后提取待训练目标检测模型得到的目标的特征向量;
S3、
基于度量模型对待训练目标检测模型进行训练,对于每一个目标
j
,其损失函数为:
L

λ
metric
·
L
metric
+
λ
L1
·
L
L1
+
λ
giou
·
L
giou
+
λ
cntrst
·
L
cntrst
其中,
L
metric
为目标框的三元组相似性度量学习损失,
λ
metric

L
metric
对应的权重;
L
L1
为目标框的位置
L1
损失,
λ
L1

L
L1
对应的权重;
L
giou
为目标框的位置
GIOU
损失,
λ
giou

L
giou
对应的权重;
L
cntrst
为图文对比损失,
λ
cntrst

L
cntrst
对应的权重
。2.
根据权利要求1所述的一种基于度量学习的无监督目标检测模型训练方法,其特征在于,所述步骤
S2
中,提取目标
j
的特征向量具体过程为:
S201、
将整体图片
i
输入到图像编码骨干模型,抽取每个输出层输出的特征得到图片
i
的整体多层特征图;
S202、
依据目标
j
的区域图片在图片
i
中的位置,从整体多层特征图中截取得到目标多层特征图;
S203、
使用特征金字塔网络对目标多层特征图进行提取池化,得到目标
j
的特征向量
。3.
根据权利要求1或2所述的一种基于度量学习的无监督目标检测模型训练方法,其特征在于,所述三元组相似性度量学习损失为:
L
metric

max(S(a,p)

S(a,n)+margin,0)
式中
max
为取...

【专利技术属性】
技术研发人员:赵天成张倩倩张璐刘鹏
申请(专利权)人:杭州联汇科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1