一种基于多任务学习框架的无偏差动态场景图生成方法技术

技术编号:36203438 阅读:58 留言:0更新日期:2023-01-04 11:57
本发明专利技术公开了一种基于多任务学习框架的无偏差动态场景图生成方法,涉及图像处理技术领域,解决最近无偏差场景图生成方法不能同时照顾头部谓词和尾部谓词学习的技术问题,包括以下步骤:将视频输入到目标检测器中,得到视频中图像中实例的视觉特征、语义特征以及空间特征;将图像中实例的特征送入到全局特征学习分支和局部特征学习分支中,通过链接局部特征和全局特征将其场景图生成模型中进行训练;采用多任务学习模型,通过辅助任务动作识别任务的学习对主任务场景图生成任务中的不合理预测进行修正,同时计算所预测的场景图的语义和标注的场景图的语义之间的差距,并用均方差损失和focal损失函数优化。失和focal损失函数优化。失和focal损失函数优化。

【技术实现步骤摘要】
一种基于多任务学习框架的无偏差动态场景图生成方法


[0001]本专利技术涉及图像处理
,更具体地是涉及一种基于多任务学习框架的无偏差动态场景图生成方法


技术介绍

[0002]近年来,深度神经网络因为性能优越而被广泛应用于各个领域。除了基础的图像分类、目标检测等认知任务以外,一些需要更高层次语义理解的应用任务随着视觉认知与自然语言处理的发展也受到的极大的关注,比如图像描述生成和图像问答等。然而,基础的认知任务都是孤立地对待图像中的实例,忽视了不同实例之间的视觉关系信息,从而无法充分理解图像中的视觉内容。
[0003]图像场景图生成就是一个专门检测不同实例之间的视觉关系的一项任务,其使用图结构的形式来表示视觉关系,其中节点表示图像中检测到的实例,边表示实例与实例之间的关系,包含了不同的关系谓词信息。场景图生成任务可以为下游任务提供一种中等层次的图像抽象特征,便于进一步加工。
[0004]由于广泛使用的视频场景图数据集Action Genome存在天然的长尾分布,如果使用普通的模型进行训练,会导致预测的结果中大部分都是本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习框架的无偏差动态场景图生成方法,其特征在于,包括以下步骤:S1、将视频输入到目标检测器中,得到视频中图像中实例的视觉特征、语义特征以及空间特征;S2、将图像中实例的特征送入到全局特征学习分支和局部特征学习分支中;S3、通过链接局部特征和全局特征将其场景图生成模型中进行训练;S4、采用多任务学习模型,通过辅助任务动作识别任务的学习对主任务场景图生成任务中的不合理预测进行修正,同时计算所预测的场景图的语义和标注的场景图的语义之间的差距,并用均方差损失和focal损失函数优化;S5、使用标准的交叉熵损失函数来优化辅助任务动作识别任务的预测结果,并且通过反向传播修正场景图生成网络的预测效果;S6、在辅助任务的引导下,模型先专注于学习全局语义信息,在逐渐将学习中心放在难预测的局部语义上,并计算模型的整体损失。2.根据权利要求1所述的一种基于多任务学习框架的无偏差动态场景图生成方法,其特征在于,所述S1、S2中,将目标检测器的输入视频V,首先解析成多个视频帧图像{I1,I2,...,I
t
},再将图像通过全局特征提取网络和局部特征提取网络,输出是图像中实例的视觉特征x
v
、全局特征x
s
以及全局语义特征x
g
。3.根据权利要求2所述的一种基于多任务学习框架的无偏差动态场景图生成方法,其特征在于,通过以下公式提取视觉特征x
v
、全局特征x
s
以及全局语义特征x
g
,具体如下:x
s
=<s
i
,s
j
>其中<,>是级联运算,是展平操作,是特征相加运算,W
s
是语义特征变换矩阵;W
g
是图像特征变换矩阵;W
o
和W
u
分别是目标和联合区域特征变换矩阵;联合特征u
ij
是通过RoIAlign提取的第i个和第j个目标的联合区域的特征向量,f
b
是将主体和对象的边界框转换为独占特征的函数,f
resize
表示变换图像大小的函数,f
vgg
表示VGG

16预训练网络模型,v
i
是指视觉特征向量,b
i
指目标检测框架的特征向量,s
i
是语义...

【专利技术属性】
技术研发人员:宋井宽郑超凡高联丽
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1