用于零化视觉指代表达理解方法、装置、设备及介质制造方法及图纸

技术编号：41722320 阅读：20 留言：0更新日期：2024-06-19 12:47

本发明专利技术提供一种用于零化视觉指代表达理解方法、装置、设备及介质，方法包括：将指代表达文本输入至大型语言模型中，输出各目标类别；将各目标类别和待指代图像输入至目标检测器中，输出各目标区域图像和目标位置和目标大小；基于大型语言模型将指代表达文本映射至第一离线推理函数上，基于第一离线推理函数、各目标区域图像和目标位置和目标大小，确定目标属性的第一目标得分；基于各目标区域图像以及第二离线推理函数确定目标属性的第二目标得分，基于第一目标得分和第二目标得分，确定视觉指代表达理解结果。该方法将大型语言模型、目标检测器以及离线推理函数有机结合，对指代表达文本进行平行拆解，无需训练样本即可进行显式鲁棒的视觉推理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种用于零化视觉指代表达理解方法、装置、设备及介质。

技术介绍

1、视觉指代表达理解任务的目标是根据文本指代定位图像中的目标区域，指代语句中通常包含位置、大小等约束关系，因此需要模型具有一定的空间与逻辑推理能力。经典的视觉指代表达理解方法使用专有的数据集进行端到端有监督训练，通过深度学习模型进行图像与文本模态的融合并直接进行定位。然而，这种方法需要进行数据标注，存在领域泛化性差等问题；此外，指代语句中的位置、大小等关系无法被显式地建模，缺乏可解释性。

2、零化视觉指代表达理解方法通常将检测与推理分开进行。reclip(referringexpression comprehension based on contrastive language-image pre-training)使用离线目标检测器和多模态预训练模型先提取图像中的所有实例以及对应的类别，然后使用文本解析器解析指代语句中的名词，以及事先定义的若干位置、大小属性(“左侧”、“右侧”、“中间”、“最大”、“最小”等)，然后构建表达式...

【技术保护点】

1.一种用于零化视觉指代表达理解方法，其特征在于，包括：

2.根据权利要求1所述的用于零化视觉指代表达理解方法，其特征在于，所述第一离线推理函数包括目标位置推理函数、目标形状属性推理函数、目标左右两侧的目标类别推理函数和与目标的距离推理函数。

3.根据权利要求2所述的用于零化视觉指代表达理解方法，其特征在于，所述目标位置推理函数基于所述指代表达文本中物体相对于目标的位置，以及所述物体与所述目标之间的距离确定；

4.根据权利要求1至3中任一项所述的用于零化视觉指代表达理解方法，其特征在于，所述基于所述各目标区域图像，以及第二离线推理函数，确定所述待指代图...

【技术特征摘要】

1.一种用于零化视觉指代表达理解方法，其特征在于，包括：

4.根据权利要求1至3中任一项所述的用于零化视觉指代表达理解方法，其特征在于，所述基于所述各目标区域图像，以及第二离线推理函数，确定所述待指代图像中目标属性的第二目标得分，包括：

5.根据权利要求4所述的用于零化视觉指代表达理解方法，其特征在于，所述基于所述各目标区域图像，以及所述各目标区域图像对应的图像标题和所述指...

【专利技术属性】
技术研发人员：张宇佳，潘毅，常慧，孙世颖，赵晓光，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人