一种无需提示的物体检测方法、装置、终端及存储介质制造方法及图纸

技术编号:44544190 阅读:12 留言:0更新日期:2025-03-11 14:10
本发明专利技术所提供的一种无需提示的物体检测方法、装置、终端及存储介质,方法包括将待检测图像输入已训练的通用视觉提示模型,得到若干第一检测框;对各个所述第一检测框进行类别名称预测,得到各个所述第一检测框的第一类别;获取所述待检测图像的图像特征,将所述第一类别作为文本提示,对所述图像特征进行目标检测,得到第二检测框和对应的第二类别;基于所述第一检测框和所述第二检测框确定最终检测框、所述最终检测框对应的类别名称。本发明专利技术无需任何先验信息输入,先获得初始分类,再将初始分类作为文本提示检测模型的文本提示进行目标检测,提高了检测结果的准确性,实现无需任何提示即可输出图像中所有对象的最终检测框及其类别名称。

【技术实现步骤摘要】

本专利技术涉及人工智能和计算机视觉,尤其涉及的是一种无需提示的物体检测方法、装置、终端及存储介质


技术介绍

1、在图像检测与识别领域,传统的检测方法通常依赖于预定义类别和训练数据集,这意味着系统只能检测在训练阶段已知的物体类别。例如,现有的深度学习模型(如fasterr-cnn、yolo、detr等)通过监督学习的方式进行训练,要求大量标注的图像数据集以涵盖所有可能的检测目标。然而,这种方法存在显著的局限性:当应用于开放场景或未见过的物体时,检测性能急剧下降。而基于提示的多模态模型(如openai的clip)能够在零样本场景下进行图像分类,因此,基于提示的多模态模型发展起来。

2、但是,基于提示的多模态模型通常依赖于用户提供的类别名称作为提示输入。也就是说,目前的技术在面临复杂和开放环境时,依然需要人为输入提示或预定义类别以进行物体检测,难以有效适应动态和未知的场景。特别是在无人驾驶、智能监控和农业监测等应用中,物体的种类多样且不可预知,这对传统方法提出了极大的挑战。因此,现有技术难以实现无需任何提示输入的零提示物体检测,尤其是在物体类别繁多本文档来自技高网...

【技术保护点】

1.一种无需提示的物体检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的无需提示的物体检测方法,其特征在于,将待检测图像输入已训练的通用视觉提示模型,得到若干第一检测框,包括:

3.根据权利要求1所述的无需提示的物体检测方法,其特征在于,对各个所述第一检测框进行类别名称预测,得到各个所述第一检测框的第一类别,包括:

4.根据权利要求1所述的无需提示的物体检测方法,其特征在于,基于所述第一检测框和所述第二检测框确定最终检测框、所述最终检测框对应的类别名称,包括:

5.根据权利要求1所述的无需提示的物体检测方法,其特征在于,基于所述...

【技术特征摘要】

1.一种无需提示的物体检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的无需提示的物体检测方法,其特征在于,将待检测图像输入已训练的通用视觉提示模型,得到若干第一检测框,包括:

3.根据权利要求1所述的无需提示的物体检测方法,其特征在于,对各个所述第一检测框进行类别名称预测,得到各个所述第一检测框的第一类别,包括:

4.根据权利要求1所述的无需提示的物体检测方法,其特征在于,基于所述第一检测框和所述第二检测框确定最终检测框、所述最终检测框对应的类别名称,包括:

5.根据权利要求1所述的无需提示的物体检测方法,其特征在于,基于所述第一检测框和所述第二检测框确定最终检测框、所述最终检测框对应的类别名称,包括:

6.根据权利要求1所述的无需提示的物体检测方法,其特征在于,基于所述第一检测框和所述第二检测框确定最终检测框、所述最终检测框对应的类别名称,包括:

7.根据权利要求1所述的无需提示的物体检测方法,其特征在于,基于所述第一检测框和所述第二检测框确定最终检测框、所述最终检测框对应的类别名称,包括:

8.根据权利要求1所述的无需提示的物体检测方法,其特征在于,所述通用视觉提示模型的训练步骤包括:

9.根据...

【专利技术属性】
技术研发人员:蒋擎刘文龙曾兆阳马正宇陈意浩任天和熊宇达俞青张磊
申请(专利权)人:粤港澳大湾区数字经济研究院福田
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1