【技术实现步骤摘要】
一种基于多粒度特征的多标签场景图生成方法
[0001]本专利技术涉及计算机视觉领域,特别地涉及一种基于多粒度特征的多标签场景图生成方法。
技术介绍
[0002]场景图生成作为一种从图像中提取结构性自然语言信息的技术,常作为一些高层视觉任务的辅助信息,如视觉问答、图像字幕等。场景图生成的目标是给定一张图像,预测图像中每个物体的分类标签和每对物体之间的关系。场景图生成的关键因素主要包括物体对之间的关系数量不确定、数据集对关系的标注不完整等。传统方法一般将场景图生成任务看成一个对关系的单标签问题,尽管一些方法在召回率上取得了一些突破,但是其没有充分考虑物体之间关系的多样性。
[0003]现有的主流场景图生成方法为两阶段的学习框架,输入一张原始三通道颜色图像,先使用目标检测器检测出图像中的所有物体,再使用关系检测器检测出物体之间的关系,最后将物体的检测结果和关系的检测结果合并生成场景图。这些方法可以生成场景图,但是对场景图中物体之间的多关系现象没有足够的考虑,限制了现行方法的效果。
技术实现思路
[0004]针对以上问题,本专利技术提供了一种基于多粒度特征的多标签场景图生成方法。本专利技术具体采用的技术方案如下:
[0005]一种基于多粒度特征的多标签场景图生成方法,其包括以下步骤:
[0006]S1、获取用于训练场景图生成的带有数据集标签的训练数据集;
[0007]S2、对训练数据集中所有图像中的所有关系类别进行粗细粒度分类和统计,得到每个关系类别的所有共生关系并构建每个关系 ...
【技术保护点】
【技术特征摘要】
1.一种基于多粒度特征的多标签场景图生成方法,其特征在于包括以下步骤:S1、获取用于训练场景图生成的带有数据集标签的训练数据集;S2、对训练数据集中所有图像中的所有关系类别进行粗细粒度分类和统计,得到每个关系类别的所有共生关系并构建每个关系类别的共生标签,得到物体对的最大可能关系数;S3、使用预训练的目标检测器,检测出训练数据集的图像中所有物体,并得到初始的物体类别预测;S4、使用多粒度模块建立每张训练图像的多粒度特征,并对图像中的每个物体对构建多分类标签;S5、利用多粒度特征作为输入,数据集标签、多分类标签、共生标签作为监督,训练关系检测器,使关系检测器能够输出图像中物体之间的关系预测,并对所述目标检测器输出的物体类别预测进行微调形成最终的物体类别预测结果;S6、针对待生成多标签场景图的目标图像,利用所述预训练的目标检测器检测出目标图像中的所有物体并得到初始的物体类别预测,然后利用所述关系检测器输出目标图像中物体之间的关系预测结果,并对所述目标检测器针对目标图像输出的物体类别预测进行微调形成最终的物体类别预测结果,最后使用多标签场景图生成器将目标图像中的关系预测结果和物体类别预测结果转化为目标图像对应的多标签场景图。2.根据权利要求1所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所述S1中的训练数据集包括若干训练图像I
train
,每一张训练图像I
train
均具有每一个物体的物体类别标签O
gt
和物体位置B
gt
以及物体对的关系类别标签P
gt
,整个训练数据集中含有的总关系类别数为Q。3.根据权利要求2所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所述S2包括以下子步骤:S21、对于训练数据集中的所有关系类别,分别统计训练数据集中属于每一种关系类别的物体对占比,将占比最大且占比总和超过阈值的若干种关系类别作为粗粒度关系,剩余关系类别作为细粒度关系;然后遍历整个训练数据集中的所有物体对中的每一个关系类别,所有和当前遍历关系类别同时被标注在同一物体对中且粒度粗细类型与当前遍历关系类别相反的关系类别,都作为当前遍历关系类别的共生关系类别;S22、分别针对每一种关系类别q构建Q维向量形式的共生标签p
co
,共生标签p
co
中每一维元素分别对应一种关系类别,其中关系类别q对应的元素值为p
o
,而关系类别q的所有共生关系类别的元素值均分剩余的(1
‑
p
o
),其他剩余的关系类别的元素值均为0;S23、对于训练数据集中的所有物体对,查找到物体对上被标注的关系类别标签数量的最大值p
max
。4.根据权利要求3所述的所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所述S3包括以下子步骤:S31、获取一个预训练的目标检测器ObjDet,所述目标检测器ObjDet包括图像特征提取网络和区域候选网络;S32、对于训练数据集中每张训练图像I
train
,通过图像特征提取网络得到相应的图像特征图并通过区域候选网络得到目标检测结果
其中:包含物体位置预测和初始物体类别预测5.根据权利要求4所述的所述的一种基于多粒度特征的多标签场景图生成方法,其特征在于所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。