System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 开放域目标检测方法、装置、电子设备及存储介质制造方法及图纸_技高网

开放域目标检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40660365 阅读:2 留言:0更新日期:2024-03-18 18:52
本发明专利技术实施例涉及目标检测领域,公开了一种开放域目标检测方法、装置、电子设备及存储介质,通过获取所属目标类别的目标物的图像样本,并标注图像样本中目标物的标注框;设置目标类别的目标提示词,将图像样本和目标提示词输入到预训练好的开放域目标检测模型中,得到目标类别的检测框;基于检测框和标注框之间的损失,对开放域目标检查模型中,针对目标提示词所对应的词向量进行调整,得到目标提示词的目标词向量;利用目标提示词以及微调后的开放域目标检查模型,对待检测图像中所属目标类别的目标物进行检测。本方案通过对模型中提示词的词向量进行微调,以使模型适应检测新的目标类别,同时保持模型对原有的通用类别的优秀检测性能。

【技术实现步骤摘要】

本专利技术涉及目标检测领域,特别涉及一种开放域目标检测方法、装置、电子设备及存储介质


技术介绍

1、随着目标检测技术的日益发展,开放域目标检测的需求也随之增加。然而,引入新的目标类别通常需要耗费大量的标注数据和复杂的重新训练过程。当前目标检测模型的微调方法,通常依赖于在大规模通用数据上进行的预训练,然后在特定领域进行微调,以适应新的目标类别。然而,这种传统微调方法存在挑战,即在保持对通用类别的优秀检测性能的同时,迅速适应新类别的困难。


技术实现思路

1、本专利技术实施方式的目的在于提供一种开放域目标检测方法、装置、电子设备及存储介质,通过微调提示信息对应的词向量,使预训练的模型能够适应检测新类别的特定任务,同时保持对通用类别的优秀检测性能。

2、为解决上述技术问题,本专利技术的实施方式提供了一种开放域目标检测方法,包括:

3、获取所属目标类别的目标物的图像样本,并标注图像样本中所述目标物的标注框;

4、设置所述目标类别的目标提示词,将所述图像样本和所述目标提示词输入到预训练好的开放域目标检测模型中,得到所述目标类别的检测框;

5、基于所述检测框和所述标注框之间的损失,对所述开放域目标检查模型中,针对所述目标提示词所对应的词向量进行调整,得到所述目标提示词的目标词向量;

6、利用所述目标提示词以及微调后的所述开放域目标检查模型,对待检测图像中所属目标类别的目标物进行检测。

7、本专利技术的实施方式还提供了一种开放域目标检测装置,包括:

8、获取模块,用于获取所属目标类别的目标物的图像样本,并标注图像样本中所述目标物的标注框;

9、处理模块,用于设置所述目标类别的目标提示词,将所述图像样本和所述目标提示词输入到预训练好的开放域目标检测模型中,得到所述目标类别的检测框;

10、调整模块,用于基于所述检测框和所述标注框之间的损失,对所述开放域目标检查模型中,针对所述目标提示词所对应的词向量进行调整,得到所述目标提示词的目标词向量;

11、检测模块,用于利用所述目标提示词以及微调后的所述开放域目标检查模型,对待检测图像中所属目标类别的目标物进行检测。

12、本专利技术的实施方式还提供了一种电子设备,包括:

13、至少一个处理器;以及,

14、与所述至少一个处理器通信连接的存储器;其中,

15、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的开放域目标检测方法。

16、本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的开放域目标检测方法。

17、本专利技术实施方式相对于现有技术而言,通过获取所属目标类别的目标物的图像样本,并标注图像样本中目标物的标注框;设置目标类别的目标提示词,将图像样本和目标提示词输入到预训练好的开放域目标检测模型中,得到目标类别的检测框;基于检测框和标注框之间的损失,对开放域目标检查模型中,针对目标提示词所对应的词向量进行调整,得到目标提示词的目标词向量;利用目标提示词以及微调后的开放域目标检查模型,对待检测图像中所属目标类别的目标物进行检测。本方案中利用了提示调优(prompt tuning)的思想,即通过微调提示信息,使预训练的模型能够适应特定目标任务这一思想引入到开放域目标检测的训练过程中,通过对预训练好的开放域目标检测模型中提示词的词向量进行微调,以使模型适应检测新的目标类别,同时保持模型对原有的通用类别的优秀检测性能。

本文档来自技高网...

【技术保护点】

1.一种开放域目标检测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述开放域目标检查模型的结构包括:用于对提示词进行编码生成词向量的文本编辑器、用于对词向量进行特征提取生成文本特征的文本特征提取网络、用于对图像进行特征提取生成图像特征的图像特征提取网络、用于对所述文本特征和所述图像特征进行特征融合得到融合特征的特征融合网络,以及对所述融合特征进行处理输出所述图像中所属于待检测类别的检测框的预测网络。

3.根据权利要求2所述的方法,其特征在于,采用词嵌入层作为所述文本编辑器,索引输入至所述开放域目标检查模型中的提示词的词向量。

4.根据权利要求2所述的方法,其特征在于,所述文本特征提取网络采用Bert模型网络,所述Bert模型的输入词向量为输入至所述开放域目标检查模型中的提示词的词向量。

5.根据权利要求1所述的方法,其特征在于,所述预训练好的开放域目标检测模型所能检测的类别中不包含所述目标类别。

6.根据权利要求1所述的方法,其特征在于,所述预训练好的开放域目标检测模型包括:GroundingDINO模型。

7.根据权利要求1所述的方法,其特征在于,所述检测框和所述标注框之间的损失采用如下中的至少一种损失计算获得:L1损失、L2损失和交叉熵损失。

8.一种开放域目标检测装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的开放域目标检测方法。

...

【技术特征摘要】

1.一种开放域目标检测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述开放域目标检查模型的结构包括:用于对提示词进行编码生成词向量的文本编辑器、用于对词向量进行特征提取生成文本特征的文本特征提取网络、用于对图像进行特征提取生成图像特征的图像特征提取网络、用于对所述文本特征和所述图像特征进行特征融合得到融合特征的特征融合网络,以及对所述融合特征进行处理输出所述图像中所属于待检测类别的检测框的预测网络。

3.根据权利要求2所述的方法,其特征在于,采用词嵌入层作为所述文本编辑器,索引输入至所述开放域目标检查模型中的提示词的词向量。

4.根据权利要求2所述的方法,其特征在于,所述文本特征提取网络采用bert模型网络,所述bert模型的输入词向量为输入至...

【专利技术属性】
技术研发人员:罗大钦
申请(专利权)人:达闼机器人股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1