一种结合人类反馈的强化学习的目标检测方法技术

技术编号：39580401 阅读：7 留言：0更新日期：2023-12-03 19:31

本发明专利技术公开了一种结合人类反馈的强化学习的目标检测方法，包括以下步骤：收集现场图像数据，使用通用的预训练的目标检测模型进行预测，得到预测结果集合；对于每个预测，进行人工标注，得到反馈数据集，包含检测框的类别标签；使用反馈数据集训练强化学习模型；使用目标检测模型对未标注的现场数据图像进行预测，并用强化学习模型把预测结果中好目标提取出来，对检测模型进行微调，使用梯度下降算法，利用损失函数更新的参数，以最小化损失；重复之前步骤，最终训练出针对目标场景的检测模型

全部详细技术资料下载

【技术实现步骤摘要】
一种结合人类反馈的强化学习的目标检测方法

[0001]本专利技术涉及目标检测领域，具体涉及一种结合人类反馈的强化学习的目标检测方法
。

技术介绍

[0002]随着监控视频的广泛应用，视频数据量激增，如何针对这些海量视频分析正变得越来越重要，目标检测正是分析视频的关键方法，公开的目标检测模型
(
如
GroundingDINO
模型
)
都是针对开源数据集进行训练的，而能自动识别各监控场景中用户关心的目标才是真正应用目标检测的关键
。
传统的方法应用目标检测模型需要重头训练，通常需要大量人工标注图像，标注成本非常高，而不同监控场景关心的目标又不尽相同，适应新场景需要重新标注大量数据，成本非常高，如何快速适应新场景而不需要大量新的标注，是当前一个主要挑战
。

技术实现思路

[0003]为了克服现有技术的不足，本专利技术提出了一种结合人类反馈的强化学习的目标检测方法，该方法使用基于人类反馈的强化学习微调目标检测器，降低了训练时间，减少了标注数量，有效提高了目标检测效率
。
技术方案如下：
[0004]一种结合人类反馈的强化学习的目标检测方法，包括以下步骤：
[0005]步骤1，收集
n
张现场图像数据，记为
x
i
，
i∈[1
，2，3，
…
，
n]，使用通用的预训练的目标检测模型
D
进行预测，得

【技术保护点】

【技术特征摘要】
1.
一种结合人类反馈的强化学习的目标检测方法，其特征在于，该方法包括以下步骤：步骤1，收集
n
张现场图像数据，记为
x
i
，
i∈[1
，2，3，
…
，
n]
，使用通用的预训练的目标检测模型
D
进行预测，得到预测结果集合
P
；步骤2，对于每个预测
pi∈P
，进行人工标注，得到反馈数据集
H
，
H
包含检测框的类别标签，其中1表示好目标，
‑1表示坏目标；步骤3，使用反馈数据集
H
训练强化学习模型
R
；步骤4，使用
D
对未标注的现场数据第
i
张图像进行预测，并用
R
把预测结果中好目标提取出来，然后对
D
进行微调，使用梯度下降算法，利用损失函数
L
更新
D
的参数，以最小化损失；步骤5，重复步骤4，最终训练出针对目标场景的检测模型
D
’
。2.
根据权利要求1所述的一种结合人类反馈的强化学习的目标检测方法，其特征在于，预训练的目标检测模型选用
GroundingDINO。3.
根据权利要求2所述的一种结合人类反馈的强化学习的目标检测方法，其特征在于，步骤3训练强化学习模型
R
的过程中，定义一个奖励函数
r(pi)
，其中
r(pi)
＝1表示
pi
是好目标，
r(pi)
＝
‑1表示
pi
是坏目标，使用策略梯度方法...

【专利技术属性】
技术研发人员：王乾宇，周金明，
申请(专利权)人：南京行者易智能交通科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人