当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于多粒度特征的多标签场景图生成方法技术

技术编号:33114589 阅读:11 留言:0更新日期:2022-04-17 00:07
本发明专利技术公开了一种基于多粒度特征的多标签场景图生成方法。该方法包括如下步骤:获取用于训练场景图生成的数据集;对数据集中的所有关系类别进行粗细粒度分类和统计,得到每个关系类别的所有共生关系并构建每个关系类别的共生标签。使用预训练的目标检测器,检测出数据集图像中所有物体;使用多粒度模块建立每张图像的多粒度特征,并对图像中的每个物体对构建多分类标签;利用多粒度特征作为输入,数据集标签、多分类标签、共生标签作为监督,训练关系检测器;最后从目标图像中得到物体和关系的预测结果,使用多标签场景图生成器转化成场景图。本发明专利技术充分利用关系类别间的联系,并用多粒度视觉特征对物体进行建模,能够更好地适应场景图生成任务。应场景图生成任务。应场景图生成任务。

【技术实现步骤摘要】
一种基于多粒度特征的多标签场景图生成方法


[0001]本专利技术涉及计算机视觉领域,特别地涉及一种基于多粒度特征的多标签场景图生成方法。

技术介绍

[0002]场景图生成作为一种从图像中提取结构性自然语言信息的技术,常作为一些高层视觉任务的辅助信息,如视觉问答、图像字幕等。场景图生成的目标是给定一张图像,预测图像中每个物体的分类标签和每对物体之间的关系。场景图生成的关键因素主要包括物体对之间的关系数量不确定、数据集对关系的标注不完整等。传统方法一般将场景图生成任务看成一个对关系的单标签问题,尽管一些方法在召回率上取得了一些突破,但是其没有充分考虑物体之间关系的多样性。
[0003]现有的主流场景图生成方法为两阶段的学习框架,输入一张原始三通道颜色图像,先使用目标检测器检测出图像中的所有物体,再使用关系检测器检测出物体之间的关系,最后将物体的检测结果和关系的检测结果合并生成场景图。这些方法可以生成场景图,但是对场景图中物体之间的多关系现象没有足够的考虑,限制了现行方法的效果。

技术实现思路

[0004]针对以上问题,本专利技术提供了一种基于多粒度特征的多标签场景图生成方法。本专利技术具体采用的技术方案如下:
[0005]一种基于多粒度特征的多标签场景图生成方法,其包括以下步骤:
[0006]S1、获取用于训练场景图生成的带有数据集标签的训练数据集;
[0007]S2、对训练数据集中所有图像中的所有关系类别进行粗细粒度分类和统计,得到每个关系类别的所有共生关系并构建每个关系类别的共生标签,得到物体对的最大可能关系数;
[0008]S3、使用预训练的目标检测器,检测出训练数据集的图像中所有物体,并得到初始的物体类别预测;
[0009]S4、使用多粒度模块建立每张训练图像的多粒度特征,并对图像中的每个物体对构建多分类标签;
[0010]S5、利用多粒度特征作为输入,数据集标签、多分类标签、共生标签作为监督,训练关系检测器,使关系检测器能够输出图像中物体之间的关系预测,并对所述目标检测器输出的物体类别预测进行微调形成最终的物体类别预测结果;
[0011]S6、针对待生成多标签场景图的目标图像,利用所述预训练的目标检测器检测出目标图像中的所有物体并得到初始的物体类别预测,然后利用所述关系检测器输出目标图像中物体之间的关系预测结果,并对所述目标检测器针对目标图像输出的物体类别预测进行微调形成最终的物体类别预测结果,最后使用多标签场景图生成器将目标图像中的关系预测结果和物体类别预测结果转化为目标图像对应的多标签场景图。
[0012]作为优选,所述S1中的训练数据集包括若干训练图像I
train
,每一张训练图像I
train
均具有每一个物体的物体类别标签O
gt
和物体位置B
gt
以及物体对的关系类别标签P
gt
,整个训练数据集中含有的总关系类别数为Q。
[0013]进一步的,所述S2包括以下子步骤:
[0014]S21、对于训练数据集中的所有关系类别,分别统计训练数据集中属于每一种关系类别的物体对占比,将占比最大且占比总和超过阈值的若干种关系类别作为粗粒度关系,剩余关系类别作为细粒度关系;然后遍历整个训练数据集中的所有物体对中的每一个关系类别,所有和当前遍历关系类别同时被标注在同一物体对中且粒度粗细类型与当前遍历关系类别相反的关系类别,都作为当前遍历关系类别的共生关系类别;
[0015]S22、分别针对每一种关系类别q构建Q维向量形式的共生标签p
co
,共生标签p
co
中每一维元素分别对应一种关系类别,其中关系类别q对应的元素值为p
o
,而关系类别q的所有共生关系类别的元素值均分剩余的(1

p
o
),其他剩余的关系类别的元素值均为0;
[0016]S23、对于训练数据集中的所有物体对,查找到物体对上被标注的关系类别标签数量的最大值p
max

[0017]进一步的,所述S3包括以下子步骤:
[0018]S31、获取一个预训练的目标检测器ObjDet,所述目标检测器ObjDet包括图像特征提取网络和区域候选网络;
[0019]S32、对于训练数据集中每张训练图像I
train
,通过图像特征提取网络得到相应的图像特征图并通过区域候选网络得到目标检测结果
[0020][0021]其中:包含物体位置预测和初始物体类别预测
[0022]进一步的,所述S4包括以下子步骤:
[0023]S41、对于目标检测器对单张训练图像给出的特征使用M个随机擦除率各自生成不同粒度下的特征,共得到M个多粒度特征同时将特征作为图像的整体特征
[0024]S42、对于训练数据集中的每张训练图像I
train
中的每个物体对(n
i
,n
j
),分别构建该物体对的多分类标签p
multi
,所述多分类标签p
multi
为Q维向量,其中每一维元素分别对应一种关系类别,标注在该物体对上的所有关系类别对应的元素值平分总和为1的概率,而其他关系类别的元素值均为0。
[0025]进一步的,所述S5包括以下子步骤:
[0026]S51、构建关系检测器RelDet,其中每张训练图像I
train
的中的每一个使用关系检测器RelDet得到所有物体对的关系预测并对中的物体类别预测进行微调得到
[0027][0028]其中:中物体对(n
i
,n
j
)关于关系类别k的关系预测为
[0029]再将每个物体对(n
i
,n
j
)关于每一种关系类别k的全部M+1个关系预测输出进行融合,得到关系检测概率结果为:
[0030][0031]式中λ为权重值;
[0032]将每张训练图像I
train
中的所有合并,得到并输出最终的关系预测同时,关系检测器RelDet经过微调后,输出最终的物体类别预测
[0033]S52、设置关系检测器RelDet的损失函数为:
[0034][0035]其中是交叉熵损失函数,是带有温度参数T的KL损失函数,P
co
为训练图像中共生标签p
co
的集合,P
multi
为训练图像中多分类标签p
multi
的集合;
[0036]S53、使用SGD优化方法和反向传播算法通过损失函数来训练关系检测器RelDet,直至损失函数收敛。
[0037]进一步的,所述S6包括以下子步骤:
[0038]S61、对于任意一张目标图像I
*
,先使用预训练的目标检测器ObjDet提取目标图像中的图像特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多粒度特征的多标签场景图生成方法,其特征在于包括以下步骤:S1、获取用于训练场景图生成的带有数据集标签的训练数据集;S2、对训练数据集中所有图像中的所有关系类别进行粗细粒度分类和统计,得到每个关系类别的所有共生关系并构建每个关系类别的共生标签,得到物体对的最大可能关系数;S3、使用预训练的目标检测器,检测出训练数据集的图像中所有物体,并得到初始的物体类别预测;S4、使用多粒度模块建立每张训练图像的多粒度特征,并对图像中的每个物体对构建多分类标签;S5、利用多粒度特征作为输入,数据集标签、多分类标签、共生标签作为监督,训练关系检测器,使关系检测器能够输出图像中物体之间的关系预测,并对所述目标检测器输出的物体类别预测进行微调形成最终的物体类别预测结果;S6、针对待生成多标签场景图的目标图像,利用所述预训练的目标检测器检测出目标图像中的所有物体并得到初始的物体类别预测,然后利用所述关系检测器输出目标图像中物体之间的关系预测结果,并对所述目标检测器针对目标图像输出的物体类别预测进行微调形成最终的物体类别预测结果,最后使用多标签场景图生成器将目标图像中的关系预测结果和物体类别预测结果转化为目标图像对应的多标签场景图。2.根据权利要求1所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所述S1中的训练数据集包括若干训练图像I
train
,每一张训练图像I
train
均具有每一个物体的物体类别标签O
gt
和物体位置B
gt
以及物体对的关系类别标签P
gt
,整个训练数据集中含有的总关系类别数为Q。3.根据权利要求2所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所述S2包括以下子步骤:S21、对于训练数据集中的所有关系类别,分别统计训练数据集中属于每一种关系类别的物体对占比,将占比最大且占比总和超过阈值的若干种关系类别作为粗粒度关系,剩余关系类别作为细粒度关系;然后遍历整个训练数据集中的所有物体对中的每一个关系类别,所有和当前遍历关系类别同时被标注在同一物体对中且粒度粗细类型与当前遍历关系类别相反的关系类别,都作为当前遍历关系类别的共生关系类别;S22、分别针对每一种关系类别q构建Q维向量形式的共生标签p
co
,共生标签p
co
中每一维元素分别对应一种关系类别,其中关系类别q对应的元素值为p
o
,而关系类别q的所有共生关系类别的元素值均分剩余的(1

p
o
),其他剩余的关系类别的元素值均为0;S23、对于训练数据集中的所有物体对,查找到物体对上被标注的关系类别标签数量的最大值p
max
。4.根据权利要求3所述的所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所述S3包括以下子步骤:S31、获取一个预训练的目标检测器ObjDet,所述目标检测器ObjDet包括图像特征提取网络和区域候选网络;S32、对于训练数据集中每张训练图像I
train
,通过图像特征提取网络得到相应的图像特征图并通过区域候选网络得到目标检测结果
其中:包含物体位置预测和初始物体类别预测5.根据权利要求4所述的所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所...

【专利技术属性】
技术研发人员:励雪巍缪佩翰李玺
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1