本发明专利技术公开了基于提示工程与区域文本描述的目标检测方法及系统,该方法包括:构建已标注数据集,已标注数据集包括多个已标注的图像;构建具有区域属性描述的目标检测模型,具有区域属性描述的目标检测模型是在RTDetr模型结构的基础上增加自适应区域特征提取模块和文本生成解码模块而形成的新模型;基于已标注数据集,对具有区域属性描述的目标检测模型进行模型训练,获得训练好的具有区域属性描述的目标检测模型;获取待检测图像,采用训练好的具有区域属性描述的目标检测模型对待检测图像进行目标检测,获得目标预测框、预测类别和区域属性描述。本发明专利技术解决了目标检测细分类影响模型性能降低与类别属性判断问题。
【技术实现步骤摘要】
本专利技术涉及目标检测,具体涉及基于提示工程与区域文本描述的目标检测方法及系统。
技术介绍
1、智慧城市车载边端ai检测系统通过目标检测模型实现目标检测,通常边端设备会采用基于cnn的yolo系列模型或基于transformer的端到端目标检测detr系列模型,借助细分类数据实现城市相关物体检测,并使用其对应类别或添加某些逻辑进行事件判断。而仅依靠大量数据与单个目标检测模型很难解决智慧城市类别属性区分的两类问题:第一,细分类冲突问题,表现为特征相似极高类别冲突(如小轿车和大型轿车suv),导致模型精度降低,甚至出现漏检;第二,类别属性事件问题,检测模型只能给出类而无附加属性提示,如检测模型无法区分车类别是在行道或车道停放,仍然无法区分城市管理事件(行道与车道车分别为不同事件)。当然,现有方法也有使用多个相同的目标检测模型,每个目标检测模型负责一定数量类别检测,并依赖场景逻辑组合,实现城市管理细分类与事件判断,这在一定程度上能提高检测模型性能,却无法根本上解决城市管理问题,反而增加边端设备资源消耗。同时,现有方法使用细分类进行目标检测,造成模型特征冲突而特征表达不充分,损失模型性能,也不具备文本相关描述,使其无法为类别附属属性进行城市管理事件判断。
2、因此,智慧城市车载边端ai检测系统依靠大量数据与细分类别,使用单个或多个相同的目标检测模型,并依赖场景逻辑组合,实现智慧城市物体类别与事件判断。然而,以上现有目标检测方法基于细分类会导致特征冲突进而导致模型性能降低,也不能提供类别属性赋值城市管理事件判断问题。
<
br/>技术实现思路
1、本专利技术所要解决的技术问题是现有目标检测方法基于细分类会导致特征冲突进而导致模型性能降低,也不能提供目标区域属性描述判断问题。本专利技术目的在于提供基于提示工程与区域文本描述的目标检测方法及系统,本专利技术重点设计了一种目标检测模型的新架构:具有区域属性描述的目标检测模型,具体地在现有目标检测模型中引入提示工程prompt与图像文本生成解码器decoder,借助提示工程prompt将现有检测模型获得预测框进行embeding编码作为精确特征提取查询向量q,现有检测模型提取的特征作为关键向量k与数值向量v,提取检测目标区域细粒度特征,再将细粒度特征使用图像文本生成解码器decoder获得对应预测框目标属性文本描述。本专利技术解决了目标检测细分类影响模型性能降低与区域属性判断问题。
2、本专利技术通过下述技术方案实现:
3、第一方面,本专利技术提供了基于提示工程与区域文本描述的目标检测方法,该方法包括:
4、构建已标注数据集,已标注数据集包括多个已标注图像目标检测标注与已标注图像目标区域文本描述;已标注图像目标检测标注是以场景目标进行检测类别标注与位置标注,类别标注是以超类(即大类)进行标注;已标注图像目标区域文本描述是以对应检测目标的区域简短文本描述,包括区域类别属性文本描述与区域事件属性文本描述,将其整合构建文本描述;区域类别属性文本描述是以对应检测目标区域超类的细分子类内容描述;区域事件属性文本描述是以对应检测目标区域事件的内容描述;
5、构建具有区域属性描述的目标检测模型,具有区域属性描述的目标检测模型是在不更改rtdetr检测模型结构的基础上增加自适应区域特征提取模块和文本生成解码模块而构建一个文本描述分支结构的新模型;
6、基于已标注数据集,采用已标注图像目标检测标注对rtdetr检测模型进行检测任务训练,作为第一阶段模型训练;采用已标注图像目标区域文本描述对具有区域属性描述的目标检测模型进行区域简短文本描述任务训练,作为第二阶段模型训练,其中第二阶段rtdetr检测模型使用第一阶段训练获得权重,并冻结rtdetr检测模型结构,获得训练好的具有区域属性描述的目标检测模型;
7、获取待检测图像,采用训练好的具有区域属性描述的目标检测模型对待检测图像进行目标检测,获得目标预测框、预测类别和区域属性描述。
8、进一步地,超类是将特征相似高的细分类别合并为一个大类。
9、进一步地,具有区域属性描述的目标检测模型是以rtdetr模型作为基准,将增加的自适应区域特征提取模块apf、文本生成解码模块tgd与rtdetr模型集成构建为基于提示工程prompt与图像描述caption的区域描述目标检测的新模型;
10、自适应区域特征提取模块apf,基于rtdetr模型中主干网络模块(backbone)提取的特征和预测模块(head)输出的目标预测框,将目标预测框的区域坐标信息转换为向量表达,根据向量表达进一步提取rtdetr模型的特征,获得区域相关特征表达;
11、文本生成解码模块tgd,基于区域相关特征表达,采用transformer结构对区域相关特征表达进行解码,获得区域属性描述。
12、进一步地,将目标预测框的区域坐标信息转换为向量表达,根据向量表达进一步提取rtdetr模型的特征,获得区域相关特征表达,包括:
13、基于提示工程prompt,将目标预测框的区域坐标信息转换为向量表达xb;
14、将向量表达xb作为transformer结构的查询向量q,且将rtdetr模型的特征作为transformer结构的关键向量k和数值向量v;采用transformer结构先对向量表达xb进行自注意力机制编码,再对rtdetr模型的特征进行交叉注意力机制编码,然后使用ffn结构重复n次实现区域相关特征表达提取。
15、进一步地,提取的区域相关特征表达公式为:
16、fp=fnfca(fsa(ft,xb))
17、其中,fsa表示自注意力机制结构,fca表示交叉注意力机制结构,fn为ffn结构,ft为rtdetr模型的特征,xb为将目标预测框的区域坐标信息转换为的向量表达。
18、进一步地,区域属性描述是基于预测框的文本属性数据。
19、进一步地,基于所述已标注数据集,采用已标注图像目标检测标注对rtdetr检测模型进行第一阶段模型训练;采用已标注图像目标区域文本描述对所述具有区域属性描述的目标检测模型进行第二阶段模型训练,其中第二阶段rtdetrr检测模型使用第一阶段训练获得权重,并冻结rtdetr检测模型结构,获得训练好的具有区域属性描述的目标检测模型,包括:
20、第一训练阶段:基于超类数据,对rtdetr模型进行训练,获得rtdetr模型的预测类别与框预测框任务,并保存rtdetr模型的权重wr;超类数据不包含对应的事件属性数据描述;
21、第二训练阶段:将第一阶段训练保存的权重wr赋值到具有区域属性描述的目标检测模型对应权重,并将其对应rtdetr模型结构冻结;基于已标注数据集对具有区域属性描述的目标检测模型进行训练且仅训练自适应区域特征提取模块apf和文本生成解码模块tgd,更新自适应区域特征提取模块apf和文本生成解码模块tgd的权重,实现保持原有rtdetr模型的目本文档来自技高网
...
【技术保护点】
1.基于提示工程与区域文本描述的目标检测方法,其特征在于,该方法包括:
2.根据权利要求1所述的基于提示工程与区域文本描述的目标检测方法,其特征在于,所述超类是将特征相似高的细分类别合并为一个大类。
3.根据权利要求1所述的基于提示工程与区域文本描述的目标检测方法,其特征在于,所述具有区域属性描述的目标检测模型是以RTDetr检测模型作为基准,将增加的自适应区域特征提取模块、文本生成解码模块与RTDetr模型集成构建为基于提示工程与图像描述的区域描述目标检测的新模型;
4.根据权利要求3所述的基于提示工程与区域文本描述的目标检测方法,其特征在于,将所述目标预测框的区域坐标信息转换为向量表达,根据所述向量表达进一步提取所述RTDetr模型的特征,获得区域相关特征表达,包括:
5.根据权利要求4所述的基于提示工程与区域文本描述的目标检测方法,其特征在于,提取的区域相关特征表达公式为:
6.根据权利要求3所述的基于提示工程与区域文本描述的目标检测方法,其特征在于,所述区域属性描述是基于预测框的文本属性数据。
7.根据权利要求1所述的基于提示工程与区域文本描述的目标检测方法,其特征在于,基于所述已标注数据集,采用已标注图像目标检测标注对RTDetr检测模型进行第一阶段模型训练;采用已标注图像目标区域文本描述对所述具有区域属性描述的目标检测模型进行第二阶段模型训练,其中第二阶段RTDetrr检测模型使用第一阶段训练获得权重,并冻结RTDetr检测模型结构,获得训练好的具有区域属性描述的目标检测模型,包括:
8.基于提示工程与区域文本描述的目标检测系统,其特征在于,该系统包括:
9.根据权利要求8所述的基于提示工程与区域文本描述的目标检测系统,其特征在于,所述具有区域属性描述的目标检测模型是以RTDetr模型作为基准,将增加的自适应区域特征提取模块、文本生成解码模块与RTDetr模型集成构建为基于提示工程与图像描述的区域描述目标检测的新模型;
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于提示工程与区域文本描述的目标检测方法。
...
【技术特征摘要】
1.基于提示工程与区域文本描述的目标检测方法,其特征在于,该方法包括:
2.根据权利要求1所述的基于提示工程与区域文本描述的目标检测方法,其特征在于,所述超类是将特征相似高的细分类别合并为一个大类。
3.根据权利要求1所述的基于提示工程与区域文本描述的目标检测方法,其特征在于,所述具有区域属性描述的目标检测模型是以rtdetr检测模型作为基准,将增加的自适应区域特征提取模块、文本生成解码模块与rtdetr模型集成构建为基于提示工程与图像描述的区域描述目标检测的新模型;
4.根据权利要求3所述的基于提示工程与区域文本描述的目标检测方法,其特征在于,将所述目标预测框的区域坐标信息转换为向量表达,根据所述向量表达进一步提取所述rtdetr模型的特征,获得区域相关特征表达,包括:
5.根据权利要求4所述的基于提示工程与区域文本描述的目标检测方法,其特征在于,提取的区域相关特征表达公式为:
6.根据权利要求3所述的基于提示工程与区域文本描述的目标检测方法,其特征在于,所述区域属性描述是基于预测框的文本属性数据。<...
【专利技术属性】
技术研发人员:汤军,薛晓轩,向华锋,张结斌,郑义,陈杰,
申请(专利权)人:成都合能创越软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。