本发明专利技术属于图像处理技术领域,提出了一种基于谓词和三元组的多粒度场景图生成方法。该方法包括:建立图像数据集;构建基于谓词和三元组的场景图生成模型;设置模型训练约束,第一阶段训练采用联合损失对模型训练约束,联合损失包含交叉熵损失和对比学习损失,第二阶段训练采用交叉熵损失对模型训练约束;训练场景图生成模型,训练采用反向传播算法,迭代更新优化模型参数,直至模型损失区域收敛;将训练好的场景图生成模型应用于场景图生成。本发明专利技术通过分别提取实体间的粗颗粒度谓词特征和细粒度三元组特征相互补充,弥补了现有算法对视觉外观变化大的谓词建模不充分的缺陷,拓展了基于深度学习模型的场景图生成思路。
【技术实现步骤摘要】
本专利技术属于图像处理,尤其涉及一种基于谓词和三元组的多粒度场景图生成方法。
技术介绍
1、实体和实体间的关系(谓词)是理解视觉内容的基石。场景图生成是视觉内容理解的基础任务,其目的是检测视觉图像中的实体并预测他们之间的谓词,这个目标可以表示为<主体,谓词,客体>三元组。由此可见,三元组是谓词的细粒度类别。其中主体和客体是实体。由于实体可以由目标检测技术识别,所以场景图生成的重心在于识别实体之间的谓词。生成的场景图可以用在多种领域,比如具身智能、图像检索和视觉问答任务。
2、现有的场景图生成方法主要依赖目标检测的实体信息提取出实体间具有可区分性的谓词特征。然而,不同主体-客体组合下的谓词视觉外观变化极大,这对场景图生成模型捕获鲁棒的谓词特征带来了挑战。为了解决这个问题,chaofan zheng等人(zheng c,lyux,gao l,et al.prototype-based embedding network for scene graph generation[c]//proceedings of the ieee/cvf conference on computer vision and patternrecognition.2023:22783-22792.)于2023年基于谓词标签的文本特征作为谓词的类别原型,尽力增大不同谓词类别特征之间的距离,减小类内谓词特征的距离。尽管提升了场景图生成模型识别谓词类别的能力,但是这种方法仍未考虑同种谓词类别视觉外观相差大,直接提取谓词线索难的客观情况。</p>3、此外,最近许多方法开始关注场景图生成任务中的长尾问题。尾部的谓词类别在数据集中包含的数目较少、三元组种类不足,导致模型难以适配数据集的分布。现有的场景图生成方法通过重加权和重采样的方案增强对尾部谓词类别的注意力,但忽略了谓词长尾问题的本质,即尾部谓词类别的模式不足以泛化到更多的测试样本。
技术实现思路
1、尽管属于同种谓词类别的样本视觉外观相差很大,但当把视野局限到某个三元组时,视觉外观的差异就变小了。因此,基于细粒度的三元组特征有助于粗粒度谓词类别的识别,增加可泛化的谓词模式。对于场景图生成中的长尾问题,用尾部的粗粒度谓词特征和细粒度三元组特征对其模式扩增以缓解长尾问题是非常自然的。基于此,本专利技术提出了一种基于谓词和三元组的多粒度场景图生成方法,其技术方案如下:
2、一种基于谓词和三元组的多粒度场景图生成方法,包括以下步骤:
3、步骤s1:建立图像数据集;
4、步骤s2:构建场景图生成模型,所述场景图生成模型为双流场景图生成网络,同时对谓词上下文和三元组上下文建模,并在结尾阶段融合所提取的信息,形成相互指导,进而融合谓词上下文和三元组上下文实现场景图生成;
5、步骤s3:设置模型训练约束,第一阶段训练采用联合损失对模型训练约束,联合损失包含交叉熵损失和对比学习损失,第二阶段训练采用交叉熵损失对模型训练约束;
6、步骤s4:训练场景图生成模型,训练采用反向传播算法,迭代更新优化模型参数,直至模型损失区域收敛;
7、步骤s5:将训练好的场景图生成模型应用于场景图生成。
8、优选的,所述场景图生成模型包括目标检测器、谓词上下文建模器、三元组上下文建模器和特征融合模块;其中,
9、目标检测器用以从图像数据中提取初始化实体特征、初始化谓词特征和初始化三元组特征;
10、谓词上下文建模器以初始化实体特征和初始化谓词特征为输入,建模谓词内、实体内、谓词和实体之间的上下文,得到精细化谓词特征;
11、三元组上下文建模器以初始化三元组特征为输入,建模三元组内的上下文,得到精细化三元组特征;
12、特征融合模块用以融合所述精细化谓词特征和精细化三元组特征并分类。
13、优选的,所述谓词上下文建模器分为两层,每层均包含谓词上下文模块、实体上下文模块以及谓词和实体间上下文建模模块。
14、优选的,所述三元组上下文建模器分为两层,每层均包含三元组视觉上下文模块、三元组语义上下文模块以及三元组视觉和语义上下文模块。
15、优选的,所述第一阶段训练的联合损失计算方式如下:
16、1)所述交叉熵损失为谓词概率和真实标签之间的交叉熵:
17、
18、其中yi,j表示真实标签,probi,j表示谓词概率,m为谓词特征pi,j的个数;
19、2)对比学习损失用于约束同种类别谓词和三元组的特征:
20、
21、其中表示三元组对比学习损失,表示谓词对比学习损失,τt表示三元组对比学习损失的温度系数,τp表示谓词对比损失的温度系数,<·,·>表示点积,表示主体i和客体j对应三元组表征经过空间映射得到的三元组特征,表示与同属于一个三元组类别的三元组表示,表示主体i和客体j对应谓词表征经过空间映射得到的谓词特征,表示与同属于一个谓词类别的谓词表示;
22、
23、其中wt和wp均为可经过反向传播优化的权重矩阵;
24、3)联合损失为:
25、
26、其中,λcls、和均表示联合损失权衡参数。
27、优选的,所述第二阶段的交叉熵损失计算方式如下:
28、
29、其中yi,j表示真实标签,probi,j表示谓词概率,m为谓词特征pi,j的个数。
30、优选的,所述步骤s4中训练场景图生成模型分为两个阶段,第一阶段训练以图像数据集中的图像数据输入场景图生成模型,第二阶段训练通过知识迁移方法构造谓词特征和三元组特征输入场景图生成模型的特征融合模块。
31、优选的,所述第二阶段训练通过知识迁移方法构造谓词特征和三元组特征为基于多元高斯分布的估计与采样,包括:
32、1)假设和服从多元高斯分布,其中属于谓词类别c的谓词表征记作属于三元组类别<s,c,o>的三元组表征记作s为主体i的类别,o为客体j的类别,其均值和协方差矩阵分别为:
33、
34、其中,mc表示数据中属于谓词类别c的谓词特征数目,m<s,c,o>表示数据中属于三元组类别<s,c,o>的三元组特征数目,和表示谓词类别c的谓词特征的均值和协方差,和表示三元组类别<s,c,o>的三元组特征的均值和协方差;
35、2)定义知识迁移为拥有样本数量多的谓词类别或三元组类别向拥有样本数量少的谓词类别或三元组类别的迁移协方差矩阵;
36、谓词中的知识迁移过程采用下式表达:
37、
38、其中βc,k为第c个谓词类别和第k个谓词类别均值和之间的欧式相似度,qc为构造第c类谓词特征的目标数量,为知识迁移后的谓词协方差矩阵;
39、三元组中的知识迁移过程采用下式表达:
本文档来自技高网
...
【技术保护点】
1.一种基于谓词和三元组的多粒度场景图生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多粒度场景图生成方法,其特征在于,所述场景图生成模型包括目标检测器、谓词上下文建模器、三元组上下文建模器和特征融合模块;其中,
3.根据权利要求2所述的多粒度场景图生成方法,其特征在于,所述谓词上下文建模器分为两层,每层均包含谓词上下文模块、实体上下文模块以及谓词和实体间上下文建模模块。
4.根据权利要求2所述的多粒度场景图生成方法,其特征在于,所述三元组上下文建模器分为两层,每层均包含三元组视觉上下文模块、三元组语义上下文模块以及三元组视觉和语义上下文模块。
5.根据权利要求1所述的多粒度场景图生成方法,其特征在于,所述第一阶段训练的联合损失计算方式如下:
6.根据权利要求1所述的多粒度场景图生成方法,其特征在于,所述第二阶段的交叉熵损失计算方式如下:
7.根据权利要求1所述的多粒度场景图生成方法,其特征在于,所述步骤S4中训练场景图生成模型分为两个阶段,第一阶段训练以图像数据集中的图像数据输入场景图生成模型,第二阶段训练通过知识迁移方法构造谓词特征和三元组特征输入场景图生成模型的特征融合模块。
8.根据权利要求7所述的多粒度场景图生成方法,其特征在于,所述第二阶段训练通过知识迁移方法构造谓词特征和三元组特征为基于多元高斯分布的估计与采样,包括:
...
【技术特征摘要】
1.一种基于谓词和三元组的多粒度场景图生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多粒度场景图生成方法,其特征在于,所述场景图生成模型包括目标检测器、谓词上下文建模器、三元组上下文建模器和特征融合模块;其中,
3.根据权利要求2所述的多粒度场景图生成方法,其特征在于,所述谓词上下文建模器分为两层,每层均包含谓词上下文模块、实体上下文模块以及谓词和实体间上下文建模模块。
4.根据权利要求2所述的多粒度场景图生成方法,其特征在于,所述三元组上下文建模器分为两层,每层均包含三元组视觉上下文模块、三元组语义上下文模块以及三元组视觉和语义上下文模块。
5.根据权...
【专利技术属性】
技术研发人员:李伟欣,李建凯,王蕴红,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。