基于原型匹配的文本信息引导的自进化目标检测方法技术

技术编号：45877364 阅读：16 留言：0更新日期：2025-07-19 11:37

本发明专利技术提供了一种基于原型匹配的文本信息引导的自进化目标检测方法，提取图像与文本中的局部、目标信息，分别得到输入图像中的各类候选目标与输入文本中的目标、属性指代词信息，采用多模态大模型和跨模态引导注意力机制，分别进行视觉与文本特征向量的提取与跨模态信息关系交互计算，将两种模态的特征向量原型进行动态匹配，根据匹配结果综合选择最终的目标。本发明专利技术将原本预训练模型中知识作用于文本引导的目标检测任务当中，使模型在面对没有数据集中没有见过的目标时具有了自进化的能力，也解决了输入文本与图像中存在大量冗余信息，不利于目标检测的问题，使得关键的目标图像信息与目标相关的文本信息能够充分对齐匹配，实现高性能的目标检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本信息引导的目标检测领域，具体提出了一种通过分别提取视觉与语言模态输入中的关键信息，引入多模态预训练模型能力，进行模态间原型匹配的文本信息目标检测方法。整个系统采用视觉-语言预训练模型的图像文本编码器对输入图片与文本信息进行编码，将不同模态的信息映射到同一向量空间，采用复杂输入中的关键信息进行原型匹配，使模型拥有自进化的精准的目标检测能力。

技术介绍

1、文本信息引导的目标检测任务是一项多模态领域的关键技术，任务与多模态视觉语言检索领域的重识别任务类似，旨在在一张给定图片中，根据文本信息，找到到图片中符合描述的目标，具体来说，任务的输入为描述目标形态，特征的文本以及一张场景复杂，包含许多对象的图片，模型将根据文本信息，在图像中进行目标检测，找到符合文本描述的目标对象并输出其在图像中的位置坐标。要求能够全面理解复杂的语言语义信息和视觉场景信息，并对文本语义和各种图片中各种目标对象的相关性进行挖掘。可以适用于非常多的现实任务场景中，不仅可以用于监控、安防等现阶段的应用场景，也可以部署在机器人中，用于民用（陪护、医疗）、军用（...

【技术保护点】

1.一种基于原型匹配的文本信息引导的自进化目标检测方法，其特征在于包括下述步骤：

2.根据权利要求1所述的基于原型匹配的文本信息引导的自进化目标检测方法，其特征在于：

3.根据权利要求1所述的基于原型匹配的文本信息引导的自进化目标检测方法，其特征在于：

4.根据权利要求1所述的基于原型匹配的文本信息引导的自进化目标检测方法，其特征在于：

5.根据权利要求1所述的基于原型匹配的文本信息引导的自进化目标检测方法，其特征在于：

6.根据权利要求1所述的基于原型匹配的文本信息引导的自进化目标检测方法，其特征在于：p>

7.一种电...

【技术特征摘要】

1.一种基于原型匹配的文本信息引导的自进化目标检测方法，其特征在于包括下述步骤：

2.根据权利要求1所述的基于原型匹配的文本信息引导的自进化目标检测方法，其特征在于：

3.根据权利要求1所述的基于原型匹配的文本信息引导的自进化目标检测方法，其特征在于：

4.根据权利要求1所述的基于原型匹配的文本信息引导的自进化目标检测方法，其特征在于：

5.根据权利要求1所述的基于原型匹配的文本信息引导的自进化目标检测方法，其特征在于：

...

【专利技术属性】
技术研发人员：张艳宁，王鹏，魏至民，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人