一种结合人类反馈的强化学习的目标检测方法技术

技术编号:39580401 阅读:7 留言:0更新日期:2023-12-03 19:31
本发明专利技术公开了一种结合人类反馈的强化学习的目标检测方法,包括以下步骤:收集现场图像数据,使用通用的预训练的目标检测模型进行预测,得到预测结果集合;对于每个预测,进行人工标注,得到反馈数据集,包含检测框的类别标签;使用反馈数据集训练强化学习模型;使用目标检测模型对未标注的现场数据图像进行预测,并用强化学习模型把预测结果中好目标提取出来,对检测模型进行微调,使用梯度下降算法,利用损失函数更新的参数,以最小化损失;重复之前步骤,最终训练出针对目标场景的检测模型

【技术实现步骤摘要】
一种结合人类反馈的强化学习的目标检测方法


[0001]本专利技术涉及目标检测领域,具体涉及一种结合人类反馈的强化学习的目标检测方法


技术介绍

[0002]随着监控视频的广泛应用,视频数据量激增,如何针对这些海量视频分析正变得越来越重要,目标检测正是分析视频的关键方法,公开的目标检测模型
(

GroundingDINO
模型
)
都是针对开源数据集进行训练的,而能自动识别各监控场景中用户关心的目标才是真正应用目标检测的关键

传统的方法应用目标检测模型需要重头训练,通常需要大量人工标注图像,标注成本非常高,而不同监控场景关心的目标又不尽相同,适应新场景需要重新标注大量数据,成本非常高,如何快速适应新场景而不需要大量新的标注,是当前一个主要挑战


技术实现思路

[0003]为了克服现有技术的不足,本专利技术提出了一种结合人类反馈的强化学习的目标检测方法,该方法使用基于人类反馈的强化学习微调目标检测器,降低了训练时间,减少了标注数量,有效提高了目标检测效率

技术方案如下:
[0004]一种结合人类反馈的强化学习的目标检测方法,包括以下步骤:
[0005]步骤1,收集
n
张现场图像数据,记为
x
i

i∈[1
,2,3,


n],使用通用的预训练的目标检测模型
D
进行预测,得到预测结果集合
P

[0006]预训练的目标检测模型选用
GroundingDINO。
[0007]步骤2,对于每个预测
pi∈P
,进行人工标注,得到反馈数据集
H

H
包含检测框的类别标签,其中1表示好目标,
‑1表示坏目标;
[0008]步骤3,使用反馈数据集
H
训练强化学习模型
R

[0009]在此过程中,定义一个奖励函数
r(pi)
,其中
r(pi)
=1表示
pi
是好目标,
r(pi)

‑1表示
pi
是坏目标,使用策略梯度方法更新
R
的参数
θ
,更新公式为:
[0010][0011]其中,
α
是学习率,
J(
θ
)
是最大化期望累积奖励,具体为
(
θ
)

E(
Σ
r(pi))
,是期望累积奖励
J(
θ
)
关于参数
θ
的梯度

[0012]步骤4,使用
D
对未标注的现场数据第
i
张图像进行预测,并用
R
把预测结果中好目标提取出来,然后对
D
进行微调,使用梯度下降算法,利用损失函数
L
更新
D
的参数,以最小化损失;
[0013]所述微调训练的损失函数
L
为:
[0014]L

λ1L
contrastive
+
λ2L
consistency
+
λ3L
classification
[0015]其中,
λ1、
λ2、
λ3是权重参数;
[0016][0017]其中
z
i
为文本特征,
z
i+
为对应图像块的特征,
sim
为计算余弦相似度函数,
τ
为可学习的温度参数;
[0018][0019]其中
f
为图像编码函数,
x
iaug
为数据增强后的图像
x
i

[0020]L
classification

CE(g(z
i
),y
i
)
[0021]其中
g
为分类头,
y
i
为图像
i
的标签,
CE
为交叉熵损失函数

[0022]步骤5,重复步骤4,最终训练出针对目标场景的检测模型
D


[0023]与现有技术相比,本专利技术的有益效果为:通过使用通用的预训练模型,并在此模型基础上使用基于人类反馈的强化学习,对模型进行微调,满足了不同场景的使用需要,避免了重头训练检测模型,降低了训练时间,减少了大量人工标注图像数量,有助于快速适应新场景

具体实施方式
[0024]为了阐明本专利技术的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述

上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述

[0025]本申请的说明书和权利要求书中的术语“步骤
1”、“步骤
2”、“步骤
3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序

应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施

[0026]本公开实施例提供了一种结合人类反馈的强化学习的目标检测方法,该方法包括以下步骤:
[0027]步骤1,将预训练的目标检测模型
GroundingDINO
,记为
D
,收集现场数据,使用训练好的
D
对数据进行预测,得到预测结果集合
P。
[0028]除了
GroundingDINO
,也可以使用其他闭集目标检测器进行替代

[0029]步骤2,对于每个预测
pi∈P
,进行人工标注,它是感兴趣的好目标还是不感兴趣的坏目标,得到反馈数据集
H

H
包含检测框的类别标签,其中使用1表示好目标,
‑1表示坏目标

[0030]步骤3,使用反馈数据集
H
训练一个强化学习模型
R
,在这个过程中,定义一个奖励函数
r(pi)
,其中
r(pi)
=1表示
pi
是好目标,
r(pi)

‑1表示
pi
是坏目标

我们的目标是最大化期望累积奖励:
J(
θ
)

...

【技术保护点】

【技术特征摘要】
1.
一种结合人类反馈的强化学习的目标检测方法,其特征在于,该方法包括以下步骤:步骤1,收集
n
张现场图像数据,记为
x
i

i∈[1
,2,3,


n]
,使用通用的预训练的目标检测模型
D
进行预测,得到预测结果集合
P
;步骤2,对于每个预测
pi∈P
,进行人工标注,得到反馈数据集
H

H
包含检测框的类别标签,其中1表示好目标,
‑1表示坏目标;步骤3,使用反馈数据集
H
训练强化学习模型
R
;步骤4,使用
D
对未标注的现场数据第
i
张图像进行预测,并用
R
把预测结果中好目标提取出来,然后对
D
进行微调,使用梯度下降算法,利用损失函数
L
更新
D
的参数,以最小化损失;步骤5,重复步骤4,最终训练出针对目标场景的检测模型
D

。2.
根据权利要求1所述的一种结合人类反馈的强化学习的目标检测方法,其特征在于,预训练的目标检测模型选用
GroundingDINO。3.
根据权利要求2所述的一种结合人类反馈的强化学习的目标检测方法,其特征在于,步骤3训练强化学习模型
R
的过程中,定义一个奖励函数
r(pi)
,其中
r(pi)
=1表示
pi
是好目标,
r(pi)

‑1表示
pi
是坏目标,使用策略梯度方法...

【专利技术属性】
技术研发人员:王乾宇周金明
申请(专利权)人:南京行者易智能交通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1