【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种用于零化视觉指代表达理解方法、装置、设备及介质。
技术介绍
1、视觉指代表达理解任务的目标是根据文本指代定位图像中的目标区域,指代语句中通常包含位置、大小等约束关系,因此需要模型具有一定的空间与逻辑推理能力。经典的视觉指代表达理解方法使用专有的数据集进行端到端有监督训练,通过深度学习模型进行图像与文本模态的融合并直接进行定位。然而,这种方法需要进行数据标注,存在领域泛化性差等问题;此外,指代语句中的位置、大小等关系无法被显式地建模,缺乏可解释性。
2、零化视觉指代表达理解方法通常将检测与推理分开进行。reclip(referringexpression comprehension based on contrastive language-image pre-training)使用离线目标检测器和多模态预训练模型先提取图像中的所有实例以及对应的类别,然后使用文本解析器解析指代语句中的名词,以及事先定义的若干位置、大小属性(“左侧”、“右侧”、“中间”、“最大”、“最小”等),然后构建表达式
...【技术保护点】
1.一种用于零化视觉指代表达理解方法,其特征在于,包括:
2.根据权利要求1所述的用于零化视觉指代表达理解方法,其特征在于,所述第一离线推理函数包括目标位置推理函数、目标形状属性推理函数、目标左右两侧的目标类别推理函数和与目标的距离推理函数。
3.根据权利要求2所述的用于零化视觉指代表达理解方法,其特征在于,所述目标位置推理函数基于所述指代表达文本中物体相对于目标的位置,以及所述物体与所述目标之间的距离确定;
4.根据权利要求1至3中任一项所述的用于零化视觉指代表达理解方法,其特征在于,所述基于所述各目标区域图像,以及第二离线推理函
...【技术特征摘要】
1.一种用于零化视觉指代表达理解方法,其特征在于,包括:
2.根据权利要求1所述的用于零化视觉指代表达理解方法,其特征在于,所述第一离线推理函数包括目标位置推理函数、目标形状属性推理函数、目标左右两侧的目标类别推理函数和与目标的距离推理函数。
3.根据权利要求2所述的用于零化视觉指代表达理解方法,其特征在于,所述目标位置推理函数基于所述指代表达文本中物体相对于目标的位置,以及所述物体与所述目标之间的距离确定;
4.根据权利要求1至3中任一项所述的用于零化视觉指代表达理解方法,其特征在于,所述基于所述各目标区域图像,以及第二离线推理函数,确定所述待指代图像中目标属性的第二目标得分,包括:
5.根据权利要求4所述的用于零化视觉指代表达理解方法,其特征在于,所述基于所述各目标区域图像,以及所述各目标区域图像对应的图像标题和所述指...
【专利技术属性】
技术研发人员:张宇佳,潘毅,常慧,孙世颖,赵晓光,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。