目标检测的方法和装置制造方法及图纸

技术编号：40149666 阅读：18 留言：0更新日期：2024-01-24 01:12

本公开涉及计算机视觉技术领域，提供了一种目标检测的方法和装置。该方法包括：执行提示文本生成任务，生成提示文本的特征向量；基于提示文本的特征向量和待检测图像确定视觉提示特征向量；基于视觉提示特征向量和待检测图像的全局特征向量确定待检测图像的局部特征增强向量；基于待检测图像的局部特征增强向量和提示文本的特征向量确定匹配特征向量；基于上述匹配特征向量和待检测图像的局部特征增强向量确定待检测图像的融合特征向量；基于融合特征向量，确定目标对象的检测框的位置和目标对象的类别解决了现有技术中目标检测模型不能对目标检测训练集中未出现的类别进行通用检测的问题，提高了模型的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机视觉，尤其涉及一种目标检测的方法和装置。

技术介绍

1、随着科技的发展，目标检测模型的应用范围越来越大，目标检测的任务是找出视频或图像中所有感兴趣的目标，并确定它们的类别和位置。当前的目标检测模型主要为关注特定类别的模型，例如，一目标检测模型为对可以对类别a进行目标检测，而不能对类别b进行目标检测，为使上述模型能够对类别b进行目标检测，需要通过相关训练集对上述模型进行重新训练并调整模型的参数，在重新训练的过程中浪费资源。

技术实现思路

1、有鉴于此，本公开实施例提供了一种目标检测的方法、装置、电子设备及可读存储介质，以解决现有技术中目标检测模型不能对训练集中未出现的类别进行通用检测，若要使该目标检测模型能够对一个新类别的目标进行检测需要重新训练该模型的问题。

2、本公开实施例的第一方面，提供了一种目标检测方法，包括：执行提示文本生成任务，生成提示文本的特征向量，提示文本的特征向量与待检测图像相关；对提示文本的特征向量和待检测图像的全局特征向量进行注意力处理，得到视觉提示特征向量；对视觉提示特征向量和待检测图像的全局特征向量进行融合处理，得到待检测图像的局部特征增强向量；对待检测图像的局部特征增强向量和提示文本的特征向量进行匹配处理，得到提示文本与待检测图像的匹配特征向量；将提示文本与待检测图像的匹配特征向量和待检测图像的局部特征增强向量进行融合处理，得到待检测图像的融合特征向量；基于融合特征向量，从待检测图像的至少一个待检测对象中确定目标对象的检测框的位置和目标对象的类别。

3、本公开实施例的第二方面，提供了一种目标检测装置，包括：文本生成模块，用于执行提示文本生成任务，生成提示文本的特征向量，提示文本的特征向量与待检测图像相关；注意力处理模块，用于对提示文本的特征向量和待检测图像的全局特征向量进行注意力处理，得到视觉提示特征向量；第一融合模块，用于对视觉提示特征向量和待检测图像的全局特征向量进行融合处理，得到待检测图像的局部特征增强向量；匹配模块，用于对待检测图像的局部特征增强向量和提示文本的特征向量进行匹配处理，得到提示文本与待检测图像的匹配特征向量；第二融合模块，用于将提示文本与待检测图像的匹配特征向量和待检测图像的局部特征增强向量进行融合处理，得到待检测图像的融合特征向量；检测模块，用于基于融合特征向量，从待检测图像的至少一个待检测对象中确定目标对象的检测框的位置和目标对象的类别。

4、本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

5、本公开实施例的第四方面，提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

6、本公开实施例与现有技术相比存在的有益效果是：在获取待检测图像后，根据目标检测任务与待检测图像执行文本生成任务生成提示文本的特征向量，得到的提示文本的特征向量与待检测图像中的目标对象相关。学习提示文本的特征向量和待检测图像的全局特征向量之间的关联关系，再结合待检测图像的全局特征向量，得到待检测图像的局部特征增强向量。并将待检测图像的局部特征增强向量和提示文本的特征向量进行匹配处理，得到的特征向量即提示文本与待检测图像的匹配特征向量。并将提示文本与待检测图像的匹配特征向量与待检测图像的局部特征增强向量进行叠加进行融合处理，实现特征增强，得到待检测图像的融合特征向量。最后将待检测图像的融合特征向量输入目标检测模块的检测头，基于输入检测头中的待检测图像的融合特征向量进行分类和定位，从待检测图像的至少一个待检测对象中确定目标对象的位置和目标对象的类别，最后从目标检测模型输出的为一张带有目标检测框的图像，位于目标检测框中对象的为目标对象，目标对象在待检测图像的位置即目标对象的目标检测框在待检测图像的位置。上述目标检测模型具备文本生成模块并能理解文本的语义信息，可以结合文本信息对多类对象进行目标检测，即使该类对象未在训练上述模型的训练集中出现过，解决了现有技术中目标检测模型不能对训练集中未出现的类别进行通用检测，若要使该目标检测模型能够对一个新类别的目标进行检测需要重新训练该模型的问题，提高了模型的泛化能力。

本文档来自技高网...

【技术保护点】

1.一种目标检测的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述执行提示文本生成任务，生成提示文本的特征向量，包括：

3.根据权利要求2所述的方法，所述根据所述第一提示文本的特征向量和所述第二提示文本的特征向量，确定所述提示文本的特征向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述执行提示文本生成任务，生成提示文本的特征向量之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于各个所述训练图像，确定各个所述训练图像的语义特征向量，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于各个所述训练图像的提示文本的特征向量和各个所述训练图像，确定各个所述训练图像的局部特征增强向量，包括：

7.根据权利要求6所述的方法，所述基于各个所述训练图像与所述训练图像的提示文本的匹配特征向量和各个所述训练图像的局部特征增强向量，确定各个所述训练图像对应的融合特征向量，包括：

8.一种目标检测装置，其特征在于，包括：

9.一种电子设备，包括存

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种目标检测的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述执行提示文本生成任务，生成提示文本的特征向量，包括：

3.根据权利要求2所述的方法，所述根据所述第一提示文本的特征向量和所述第二提示文本的特征向量，确定所述提示文本的特征向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述执行提示文本生成任务，生成提示文本的特征向量之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于各个所述训练图像，确定各个所述训练图像的语义特征向量，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于各个所述训练图像的提示文本的特征向量和各个所...

【专利技术属性】
技术研发人员：石雅洁，
申请(专利权)人：深圳须弥云图空间科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人