【技术实现步骤摘要】
本专利技术属于图文数据处理,尤其涉及一种基于用户自定义类别的物体检测方法及系统。
技术介绍
1、随着人工智能技术的发展,越来越多的图像识别系统获得了应用,比如人脸识别、物体检测等。由于受经典神经网络技术的限制,主流物体检测算法只能识别预先定义的物体种类,如人形、车辆、宠物等,而不能识别未预先定义的物体种类。
2、随着变形神经网络(transformer)技术的发展,图文多模态模型可以同时处理文本和图像数据,并支持未预先定义类别的物体检测。一方面,由于受到成本限制,图文多模态模型的参数规模不会太大,因而不能理解复杂的用户文本输入,只能理解简单的目标刻画关键词。如何把用户的自然语言输入和图像输入转为合适的检测目标文本刻画是应用图文多模态模型的关键问题。
3、现有公开了基于先验知识启发大语言模型的图像推理问答方法(专利申请号为:cn202310744506.2),该方案通过视觉问答小模型向大语言模型提供更多的图片信息,得到更好的图像知识推理结果,该方法通过提供丰富的输入给大语言模型来调用其推理能力,而用户自定义类别物体
...【技术保护点】
1.一种基于用户自定义类别的物体检测方法,其特征在于,包括:
2.根据权利要求1所述的一种基于用户自定义类别的物体检测方法,其特征在于,基于短语边界点建模技术的检测目标辅助刻画生成技术对输入数据进行处理,得到检测目标的辅助输入数据,具体为:
3.根据权利要求2所述的一种基于用户自定义类别的物体检测方法,其特征在于,基于文本数据从历史文本库DST中提取相似文本集合,具体为:将历史文本库DST中文本依次代入公式中进行计算,当计算结果小于第一预设阈值时,将对应文本加入相似文本集合,其中,为文本数据,为的嵌入向量,为历史文本库DST中第i项文本,为的嵌
...【技术特征摘要】
1.一种基于用户自定义类别的物体检测方法,其特征在于,包括:
2.根据权利要求1所述的一种基于用户自定义类别的物体检测方法,其特征在于,基于短语边界点建模技术的检测目标辅助刻画生成技术对输入数据进行处理,得到检测目标的辅助输入数据,具体为:
3.根据权利要求2所述的一种基于用户自定义类别的物体检测方法,其特征在于,基于文本数据从历史文本库dst中提取相似文本集合,具体为:将历史文本库dst中文本依次代入公式中进行计算,当计算结果小于第一预设阈值时,将对应文本加入相似文本集合,其中,为文本数据,为的嵌入向量,为历史文本库dst中第i项文本,为的嵌入向量,i为非零的自然数;
4.根据权利要求3所述的一种基于用户自定义类别的物体检测方法,其特征在于,得到关键短语的处理过程具体为:
5.根据权利要求1所述的一种基于用户自定义类别的物体检测方法,其特征在于,基于多模态重构对准网络的检测目标刻画生成技术对输入数据和辅...
【专利技术属性】
技术研发人员:赵刚强,金伟,应红力,
申请(专利权)人:杭州觅睿科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。