一种基于用户自定义类别的物体检测方法及系统技术方案

技术编号：40756477 阅读：28 留言：0更新日期：2024-03-25 20:10

本申请提供了一种基于用户自定义类别的物体检测方法及系统，属于图文数据处理技术领域，包括：用户输入一段自然语言描述和一张相关图像，利用基于短语边界点建模技术的检测目标辅助刻画生成技术获得检测目标辅助输入；调用基于多模态重构对准网络的检测目标刻画生成模型，获得检测目标的多个文本刻画；基于图像自适应目标刻画匹配度估算技术生成目标反向刻画以进一步满足检测目标自定义需求；基于自定义物体检测使用过程中的反馈数据对图文多模态模型进行优化。支持用户自定义的物体检测技术，结合了多模态重构对准网络的目标刻画生成能力和图文多模态模型的图像识别能力，极大方便用户对图像识别技术的使用，方案具有较强的普及能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图文数据处理，尤其涉及一种基于用户自定义类别的物体检测方法及系统。

技术介绍

1、随着人工智能技术的发展，越来越多的图像识别系统获得了应用，比如人脸识别、物体检测等。由于受经典神经网络技术的限制，主流物体检测算法只能识别预先定义的物体种类，如人形、车辆、宠物等，而不能识别未预先定义的物体种类。

2、随着变形神经网络（transformer）技术的发展，图文多模态模型可以同时处理文本和图像数据，并支持未预先定义类别的物体检测。一方面，由于受到成本限制，图文多模态模型的参数规模不会太大，因而不能理解复杂的用户文本输入，只能理解简单的目标刻画关键词。如何把用户的自然语言输入和图像输入转为合适的检测目标文本刻画是应用图文多模态模型的关键问题。

3、现有公开了基于先验知识启发大语言模型的图像推理问答方法（专利申请号为：cn202310744506.2），该方案通过视觉问答小模型向大语言模型提供更多的图片信息，得到更好的图像知识推理结果，该方法通过提供丰富的输入给大语言模型来调用其推理能力，而用户自定义类别物体...

【技术保护点】

1.一种基于用户自定义类别的物体检测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于用户自定义类别的物体检测方法，其特征在于，基于短语边界点建模技术的检测目标辅助刻画生成技术对输入数据进行处理，得到检测目标的辅助输入数据，具体为：

3.根据权利要求2所述的一种基于用户自定义类别的物体检测方法，其特征在于，基于文本数据从历史文本库DST中提取相似文本集合，具体为：将历史文本库DST中文本依次代入公式中进行计算，当计算结果小于第一预设阈值时，将对应文本加入相似文本集合，其中，为文本数据，为的嵌入向量，为历史文本库DST中第i项文本，为的嵌入向量，i为非零的自...

【技术特征摘要】

1.一种基于用户自定义类别的物体检测方法，其特征在于，包括：

3.根据权利要求2所述的一种基于用户自定义类别的物体检测方法，其特征在于，基于文本数据从历史文本库dst中提取相似文本集合，具体为：将历史文本库dst中文本依次代入公式中进行计算，当计算结果小于第一预设阈值时，将对应文本加入相似文本集合，其中，为文本数据，为的嵌入向量，为历史文本库dst中第i项文本，为的嵌入向量，i为非零的自然数；

4.根据权利要求3所述的一种基于用户自定义类别的物体检测方法，其特征在于，得到关键短语的处理过程具体为：

5.根据权利要求1所述的一种基于用户自定义类别的物体检测方法，其特征在于，基于多模态重构对准网络的检测目标刻画生成技术对输入数据和辅...

【专利技术属性】
技术研发人员：赵刚强，金伟，应红力，
申请(专利权)人：杭州觅睿科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人