基于思维链条的图像级自动提示生成目标检测方法技术

技术编号:43809620 阅读:33 留言:0更新日期:2024-12-27 13:26
本发明专利技术提出了基于思维链条的图像级提示自动生成目标检测方法,属于多模态目标检测领域。本发明专利技术提出的方法包括步骤:1)将图像输入概念提取模块,筛选前景物体区域并识别;2)建立常识知识图谱G<subgt;C</subgt;,删除初步提示P<subgt;raw</subgt;中不共存物体;3)使用大语言模型对P<subgt;prune</subgt;进行场景联想和概念推理补充;4)设计自适应阈值算法,删除联想扩充后的提示P<subgt;search</subgt;中置信度较低的概念得到图像级提示P<subgt;image</subgt;;5)将提示P<subgt;image</subgt;与对应图像I输入视觉语言模型完成检测。本发明专利技术基于思维链条思想,利用多模态大模型的泛化能力和大语言模型的文本生成能力,设计了图像级提示自动生成方法,有效提高了视觉语言模型目标检测的准确率。

【技术实现步骤摘要】

本专利技术属于多模态自然图像检测领域,具体地说,涉及基于思维链条的图像级自动提示生成目标检测方法


技术介绍

1、图像分类、目标检测和语义分割等视觉识别任务一直是计算机视觉研究中长期存在的问题,也是自动驾驶、遥感、机器人技术等众多计算机视觉应用的基础。随着深度学习的出现,视觉识别研究通过利用端到端可训练深度神经网络(dnn,deep neural networks)取得了巨大成功。然而,从传统机器学习向深度学习转变的过程中,又面临着从零开始训练dnn网络收敛速度缓慢以及收集大规模、特定任务和人工标记的训练数据难度大,这两大困难。

2、近年来,一种新的“预训练-微调-预测”学习范式逐渐兴起并在很多视觉识别任务中展现出很强的有效性。在这种新的范式下,首先使用某些现成的大规模数据对dnn模型进行预训练。这些数据有些带标注,有些不带标注。之后,再使用针对某特定任务的带标注训练数据对模型进行微调。因为在预训练阶段,模型已经学习到较全面的知识,所以根据这种范式可以加速网络收敛,并能更容易训练出针对各种下游任务性能良好的模型。

>3、尽管如此,这种本文档来自技高网...

【技术保护点】

1.基于思维链条的图像级自动提示生成方法,其特征在于,利用思维链条思想将一阶段的目标检测任务分解为多步,针对特定数据集自动生成图像级的提示,从而提高目标检测准确率,包括以下步骤:

2.根据权利要求1所述的基于思维链条的图像级自动提示生成方法,其特征在于,所述的概念提取模块由前景物体提取器Extf和预训练好的文本-图像匹配对组成。

3.根据权利要求1所述的基于思维链条的图像级自动提示生成方法,其特征在于,所述的常识知识图谱GC以常识知识库概念网络为基础,待检测类别标签为实体,关联关系为边,关联程度为权重,数学模型为带权有向图。

4.根据权利要求1所述的基...

【技术特征摘要】

1.基于思维链条的图像级自动提示生成方法,其特征在于,利用思维链条思想将一阶段的目标检测任务分解为多步,针对特定数据集自动生成图像级的提示,从而提高目标检测准确率,包括以下步骤:

2.根据权利要求1所述的基于思维链条的图像级自动提示生成方法,其特征在于,所述的概念提取模块由前景物体提取器extf和预训练好的文本-图像匹配对组成。

3.根据权利要求1所述的基于思维链条的图像级自动提示生成方法,其特征在于,所述的常识知识图谱gc以常识知识库...

【专利技术属性】
技术研发人员:姜竹青郭妙恬门爱东
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1