【技术实现步骤摘要】
本专利技术涉及人工智能和计算机视觉,尤其涉及的是一种无需提示的物体检测方法、装置、终端及存储介质。
技术介绍
1、在图像检测与识别领域,传统的检测方法通常依赖于预定义类别和训练数据集,这意味着系统只能检测在训练阶段已知的物体类别。例如,现有的深度学习模型(如fasterr-cnn、yolo、detr等)通过监督学习的方式进行训练,要求大量标注的图像数据集以涵盖所有可能的检测目标。然而,这种方法存在显著的局限性:当应用于开放场景或未见过的物体时,检测性能急剧下降。而基于提示的多模态模型(如openai的clip)能够在零样本场景下进行图像分类,因此,基于提示的多模态模型发展起来。
2、但是,基于提示的多模态模型通常依赖于用户提供的类别名称作为提示输入。也就是说,目前的技术在面临复杂和开放环境时,依然需要人为输入提示或预定义类别以进行物体检测,难以有效适应动态和未知的场景。特别是在无人驾驶、智能监控和农业监测等应用中,物体的种类多样且不可预知,这对传统方法提出了极大的挑战。因此,现有技术难以实现无需任何提示输入的零提示物体检测,
...【技术保护点】
1.一种无需提示的物体检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的无需提示的物体检测方法,其特征在于,将待检测图像输入已训练的通用视觉提示模型,得到若干第一检测框,包括:
3.根据权利要求1所述的无需提示的物体检测方法,其特征在于,对各个所述第一检测框进行类别名称预测,得到各个所述第一检测框的第一类别,包括:
4.根据权利要求1所述的无需提示的物体检测方法,其特征在于,基于所述第一检测框和所述第二检测框确定最终检测框、所述最终检测框对应的类别名称,包括:
5.根据权利要求1所述的无需提示的物体检测方法,
...【技术特征摘要】
1.一种无需提示的物体检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的无需提示的物体检测方法,其特征在于,将待检测图像输入已训练的通用视觉提示模型,得到若干第一检测框,包括:
3.根据权利要求1所述的无需提示的物体检测方法,其特征在于,对各个所述第一检测框进行类别名称预测,得到各个所述第一检测框的第一类别,包括:
4.根据权利要求1所述的无需提示的物体检测方法,其特征在于,基于所述第一检测框和所述第二检测框确定最终检测框、所述最终检测框对应的类别名称,包括:
5.根据权利要求1所述的无需提示的物体检测方法,其特征在于,基于所述第一检测框和所述第二检测框确定最终检测框、所述最终检测框对应的类别名称,包括:
6.根据权利要求1所述的无需提示的物体检测方法,其特征在于,基于所述第一检测框和所述第二检测框确定最终检测框、所述最终检测框对应的类别名称,包括:
7.根据权利要求1所述的无需提示的物体检测方法,其特征在于,基于所述第一检测框和所述第二检测框确定最终检测框、所述最终检测框对应的类别名称,包括:
8.根据权利要求1所述的无需提示的物体检测方法,其特征在于,所述通用视觉提示模型的训练步骤包括:
9.根据...
【专利技术属性】
技术研发人员:蒋擎,刘文龙,曾兆阳,马正宇,陈意浩,任天和,熊宇达,俞青,张磊,
申请(专利权)人:粤港澳大湾区数字经济研究院福田,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。