一种基于交替迭代优化的场景图生成装置和方法制造方法及图纸

技术编号:35855499 阅读:18 留言:0更新日期:2022-12-07 10:42
本发明专利技术属于计算机视觉技术领域,公开了一种基于交替迭代优化的场景图生成装置和方法,包括图像物体检测模块、场景图物体识别模块和场景图关系识别模块。该方法通过设计关系敏感的消息传递网络,充分利用图像中的上下文信息优化物体特征,并交替迭代优化模型的物体识别与关系识别能力,实现高精度场景图生成。相比传统方法,该方法解决了上下文信息缺失的问题并缓解了模型架构的错误传递问题。同时,由于避免了对物体与物体、物体与关系的共同出现频率的统计信息的利用,降低了模型训练后对特定数据集的依赖性。综上所述,对于自然场景图像,本发明专利技术通过对上下文的充分利用与对模型中不同部分的交替迭代优化,生成高精度的场景图预测结果。测结果。测结果。

【技术实现步骤摘要】
一种基于交替迭代优化的场景图生成装置和方法


[0001]本专利技术属于计算机视觉
,尤其涉及一种基于交替迭代优化的场景图生成装置和方法。

技术介绍

[0002]场景图生成是一种推断图像中物体及物体间关系的空间、语义信息的任务。在场景图中,节点和边分别代表图像中的物体及物体间的关系。该任务是物体检测、图像分割等任务向深度图像理解的进一步拓展,近年来吸引了研究领域的大量关注。通过对场景图的生成,可帮助许多下游视觉应用的进行。同时,已有研究证明通过场景图生成,模型同样可以提取更好的图像特征以帮助图像分类、物体检测等更基础的视觉任务。
[0003]一般来讲,现有场景图生成方法都遵从以下流程:首先,通过任意物体检测器(通常采用Faster

RCNN以便于比较)获取图像中物体的包围盒坐标,并提取物体包围盒对应的视觉特征。随后,构建物体识别模块,利用图像中的上下文信息优化物体特征并得出物体分类结果。最后,通过融合物体的视觉特征及其他信息,对每一对物体间的关系进行识别,并结合所有结果输出场景图。常见的拓展形式包括但不限于修改识别网络的网络结构以及引入物体的文本特征。近期也有许多工作聚焦于解决场景图数据集中对关系类别标注的长尾效应问题。
[0004]然而上述框架存在两大问题。第一,上下文信息缺失。图像中物体间的关系是上下文信息中的重要部分,现有方法通常以场景图中的边来代表这样的关系。但由于物体间关系未知,现有方法往往固定采用全连接或按一定顺序依次连接的方法构建初始场景图,以进行消息传递。这样的构建方法导致初始场景图中的上下文信息与实际场景并不一致,影响了消息传递过程。第二,错误传递。上述框架将场景图生成分为独立的三步,但难以保证每步结果的精度。因此,该框架存在严重的错误传递问题。例如,错误的物体识别结果将使模型难以正确识别物体间的关系类别。

技术实现思路

[0005]本专利技术目的在于提供一种基于交替迭代优化的场景图生成装置和方法,以解决上述的技术问题。
[0006]为解决上述技术问题,本专利技术的一种基于交替迭代优化的场景图生成装置和方法的具体技术方案如下:
[0007]一种基于交替迭代优化的场景图生成装置,包括图像物体检测模块、场景图物体识别模块和场景图关系识别模块;
[0008]所述图像物体检测模块,负责定位输入图像中物体的包围盒,并提取包围盒对应的物体视觉特征;
[0009]所述场景图物体识别模块,负责基于场景图关系识别模块的输出,对图像物体检测模块输出的包围盒进行识别,得出对应的物体类别;
[0010]所述场景图关系识别模块,负责根据场景图物体识别模块的输出提取文本特征,并结合物体视觉特征及空间特征,对物体间的关系进行识别。
[0011]本专利技术还公开了一种场景图生成方法,包括训练阶段和测试阶段,所述训练阶段的步骤如下:
[0012]步骤1:整理数据集:使用带有场景图标注的自然场景图像为训练数据;
[0013]步骤2:构造训练网络:
[0014]步骤2.1:物体识别模块采用关系敏感的消息传递网络,针对不同类别的关系训练不同的转换矩阵,并对转换后的邻结点消息进行聚合,用以更新当前节点的特征;
[0015]步骤2.2:关系识别模块通过结合物体特征、空间特征及物体分类的文本特征,对两者间的关系进行识别;
[0016]步骤3:使用网络进行训练:在正式进行模型训练前,首先使用预训练好的文本特征提取模型提取图像标注集中的物体、关系类别的文本特征,以备后续训练使用;同时,对于在外部数据集上预训练的物体检测器模型,在场景图数据集上进行微调训练,以获取最优的物体检测效果;
[0017]步骤4:交替进行步骤2数次,并结合物体识别、关系识别的结果,得出图像对应的场景图。
[0018]进一步地,所述步骤1包括如下具体步骤:筛选出数据集中出现频率最高的150种物体类别和50种关系类别作为图像标注集;训练中所用的所有图像统一缩放为592x592像素,训练图像和测试图像分别需要有至少70000及30000张图像。
[0019]进一步地,所述步骤2.1的具体公式如下:
[0020][0021]其中xi、zi分别为更新前后的节点特征,Wt1、Wt2为所有节点共享的两个转换矩阵,Wr(i,j)为一组与关系类别对应的转换矩阵,б表示非线性函数,LN代表横向规范化,Ni为节点i的邻域;同时,对于输入场景图中的每条边,学习一个反向的转换矩阵,因此,对于数据集中共50类关系,该模块共训练100种不同的转换矩阵,以充分利用关系约束监督消息传递。
[0022]进一步地,所述步骤2.2的具体公式如下:
[0023]p
r(i,j)
=FC([f1(x
s
,x
u
,x
o
),f2(g
s
,g
o
)])
[0024]其中Pr(i,j)表示节点i与节点j间关系的预测概率分布,FC为两层全连接层,f1和f2分别为两个不同的长短期记忆神经网络,s、u、o分别代表主语物体、包围两物体最小包围盒区域以及宾语物体,x和g分别代表视觉特征和文本特征。
[0025]进一步地,所述步骤3包括如下具体步骤:训练中,首先对模型中所有参数进行随机初始化,按照如下交替迭代优化的算法对物体识别模块和关系识别模块进行优化:
[0026][0027]其中O为物体识别网络的输出,R为关系识别网络的输出,F为上述关系识别模块的输出Pr(i,j)对应的函数,最终,通过平均多次迭代优化步骤中物体识别模块和关系识别模
块的概率分布输出,分别得出最终物体识别与关系识别的概率分布估计,并采用交叉熵损失函数分别对其进行约束,通过计算上述损失函数的梯度,对模型采用随机梯度下降法进行优化。
[0028]进一步地,所述训练阶段包括如下步骤:测试图像被统一缩放为592x592像素,使用训练得到的场景图生成模型进行测试,输入一张源图像到场景图生成模型中,即可得图像对应的场景图预测结果;
[0029]采用Visual Genome数据集,该数据集共包括108000张图像,其中训练图像75651张,测试图像32422张,每张图像平均包含35个物体、26种属性、21对物体间关系以及50个物体区域描述,其中所有概念都与WordNet中概念存在对应,同时,该数据集还包括1773258对与图像内容相关的问答对标注,在该数据集总计33877种物体类别与42374种关系类别中,仅选取出其中出现频率最高的150种物体类别与50种关系类别作为标注集;
[0030]场景图生成任务可细分为三个子任务,分别为:1)谓词分类:给定图像、图像中物体的包围盒及包围盒对应的标签,预测图像中物体间的关系;2)场景图分类:给定图像与图像中物体的包围盒,预测包围盒对应的标签与物体间的关系;3)场景图检测:仅输入图像,预测图像中物体的包围盒、包围盒对应标签及物体间的关系;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于交替迭代优化的场景图生成装置,其特征在于,包括图像物体检测模块、场景图物体识别模块和场景图关系识别模块;所述图像物体检测模块,负责定位输入图像中物体的包围盒,并提取包围盒对应的物体视觉特征;所述场景图物体识别模块,负责基于场景图关系识别模块的输出,对图像物体检测模块输出的包围盒进行识别,得出对应的物体类别;所述场景图关系识别模块,负责根据场景图物体识别模块的输出提取文本特征,并结合物体视觉特征及空间特征,对物体间的关系进行识别。2.一种利用如权利要求1所述的装置的场景图生成方法,包括训练阶段和测试阶段,所述训练阶段的步骤如下:步骤1:整理数据集:使用带有场景图标注的自然场景图像为训练数据;步骤2:构造训练网络:步骤2.1:物体识别模块采用关系敏感的消息传递网络,针对不同类别的关系训练不同的转换矩阵,并对转换后的邻结点消息进行聚合,用以更新当前节点的特征;步骤2.2:关系识别模块通过结合物体特征、空间特征及物体分类的文本特征,对两者间的关系进行识别;步骤3:使用网络进行训练:在正式进行模型训练前,首先使用预训练好的文本特征提取模型提取图像标注集中的物体、关系类别的文本特征,以备后续训练使用;同时,对于在外部数据集上预训练的物体检测器模型,在场景图数据集上进行微调训练,以获取最优的物体检测效果;步骤4:交替进行步骤2数次,并结合物体识别、关系识别的结果,得出图像对应的场景图。3.根据权利要求2所述的场景图生成方法,其特征在于,所述步骤1包括如下具体步骤:筛选出数据集中出现频率最高的150种物体类别和50种关系类别作为图像标注集;训练中所用的所有图像统一缩放为592x592像素,训练图像和测试图像分别需要有至少70000及30000张图像。4.根据权利要求2所述的场景图生成方法,其特征在于,所述步骤2.1的具体公式如下:其中x
i
、z
i
分别为更新前后的节点特征,Wt1、Wt2为所有节点共享的两个转换矩阵,Wr(i,j)为一组与关系类别对应的转换矩阵,б表示非线性函数,LN代表横向规范化,N
i
为节点i的邻域;同时,对于输入场景图中的每条边,学习一个反向的转换矩阵,因此,对于数据集中共50类关系,该模块共训练100种不同的转换矩阵,以充分利用关系约束监督消息传递。5.根据权利要求2所述的场景图生成方法,其特征在于,所述步骤2.2的具体公式如下:p
r(i,j)
=FC([f1(x
s
,x
u
,x
o
),f2(g
s
,g
o
)])...

【专利技术属性】
技术研发人员:王蕊童学智李太豪裴冠雄
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1