一种多模态目标检测方法、系统、存储介质及电子设备技术方案

技术编号:42476872 阅读:25 留言:0更新日期:2024-08-21 12:59
本发明专利技术提供一种多模态目标检测方法、系统、存储介质及电子设备,所述方法包括以下步骤:获取目标类别文本;将所述目标类别文本输入大语言模型以获取所述目标类别的文本嵌入特征;获取目标图像;将所述目标图像输入视觉语言模型以获取所述目标的图像嵌入特征;将所述文本嵌入特征和所述图像嵌入特征进行相似度处理以检测出不同目标类别。本发明专利技术的多模态目标检测赋予模型更强的泛化能力和适应性,使其能够在面对新的、未知的类别时也能进行有效的检测,以实现对任意类别目标的识别,有效解决当前目标检测任务中只能识别有限数量类别目标的限制。

【技术实现步骤摘要】

本专利技术属于目标检测的,特别是涉及一种多模态目标检测方法、系统、存储介质及电子设备


技术介绍

1、在传统的目标检测任务中,模型通常针对一组特定的目标类别进行训练,这些类别是在训练开始前预先定义好的。模型学习识别这些特定类别的物体,并能够在测试图像中准确地定位它们。这种策略在处理封闭世界的数据集时非常有效,其中所有的目标类别在训练和测试时都是已知的。然而,现实世界是一个开放世界的环境,可能会出现训练集中未包含的新类别对象。当这些新类别的物体出现时,传统模型可能会遇到困难:无法识别新类别:如果一个新类别的对象出现在测试图像中,而这个类别并没有包含在模型的训练集中,模型可能无法将其识别为一个有效的目标,因为它只“知道”训练集中的类别。错误分类:更糟糕的情况是,模型可能会将新类别的物体错误地归类为训练集中的一个相似类别,这会导致错误的检测结果。泛化能力有限:传统模型通常专注于记忆训练集中的类别特征,而不是学习更通用的表示,这使得它们在面对新类别时的泛化能力受限。

2、因此,如何提供一种多模态目标检测方法以解决上述问题成为本领域技术人员亟需解决的问题本文档来自技高网...

【技术保护点】

1.一种多模态目标检测方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的多模态目标检测方法,其特征在于:将所述目标类别文本输入大语言模型以获取所述目标类别的文本嵌入特征包括:基于所述大语言模型,获取所述目标类别的文本特征,将不同目标类别文本特征转换为预设长度的向量以获取目标类别的文本嵌入特征。

3.根据权利要求1所述的多模态目标检测方法,其特征在于:将所述目标图像输入视觉语言模型以获取所述目标的图像特征嵌入包括:将所述目标图像输入视觉语言模型以获取所述目标的图像特征,将所述图像特征输入不同的编码器进行处理以获取所述目标的图像嵌入特征。

...

【技术特征摘要】

1.一种多模态目标检测方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的多模态目标检测方法,其特征在于:将所述目标类别文本输入大语言模型以获取所述目标类别的文本嵌入特征包括:基于所述大语言模型,获取所述目标类别的文本特征,将不同目标类别文本特征转换为预设长度的向量以获取目标类别的文本嵌入特征。

3.根据权利要求1所述的多模态目标检测方法,其特征在于:将所述目标图像输入视觉语言模型以获取所述目标的图像特征嵌入包括:将所述目标图像输入视觉语言模型以获取所述目标的图像特征,将所述图像特征输入不同的编码器进行处理以获取所述目标的图像嵌入特征。

4.根据权利要求3所述的多模态目标检测方法,其特征在于:所述编码器包括第一编码器和第二编码器;其中,所述第一编码器用于输出预测的目标位置信息,所述第二编码器用于输出图像嵌入特征。

5.根据权利要求3所述的多模态目标检测方法,其特征在于:将所述文本嵌入特征和所述图像嵌入特征进行相...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:上海蜜度科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1