图像处理方法、场景图生成模型的训练方法以及电子设备技术

技术编号：34343982 阅读：18 留言：0更新日期：2022-07-31 04:26

本公开涉及一种图像处理方法、场景图生成模型的训练方法以及电子设备，涉及图像处理领域。本公开的方法包括：从图像中提取一个或多个目标对以及每个目标对的信息，其中，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息；根据每个目标对的信息确定每个目标对的视觉关系特征；根据每个目标对的视觉关系特征确定每个目标对的关系显著度；根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图。有关系显著度的场景图。有关系显著度的场景图。

Image processing method, training method of scene graph generation model and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
图像处理方法、场景图生成模型的训练方法以及电子设备

[0001]本公开涉及图像处理领域，特别涉及一种图像处理方法、场景图生成模型的训练方法以及电子设备。

技术介绍

[0002]场景图是对于视觉场景的一种符号化表示，它将场景中的目标抽象成图节点，将目标间的关系抽象成连接节点的边。场景图生成技术以给定的图像作为输入，通过算法模型生成与图像场景相应的场景图表示，其挑战在于不仅需要检测出图像中的所有目标，还需要识别目标间的视觉关系。基于场景图的视觉推理对于理解图像数据中的丰富语义至关重要，并且可以支撑众多视觉
‑
语言下游任务。
[0003]专利技术人已知的目前场景图生成方法的基本思路是：首先检测出图像中的所有目标，然后枚举两两目标的组合，并构建目标对的关系特征；接下来，强化目标与关系的特征；最后，基于这些特征进行目标和关系的分类，输出场景图。

技术实现思路

[0004]专利技术人发现：现有场景图生成技术关注于尽可能完整地捕捉目标之间的关系，不可避免地导致所生成的场景图不能聚焦于最重要或显著的视觉关系。这与人类智能对于视觉场景的感知存在分歧—我们总是迅速把注意力集中到图像中最显著的目标和关系。这种缺陷也妨碍了场景图对下游任务支持的有效性，比如人在描述图像时，通常会重点关注由最显著的目标和关系所构成的事件，而基于现有技术生成的场景图，往往不能聚焦于图像的要点内容，不能准确的描述图像中的视觉关系。
[0005]本公开所要解决的一个技术问题是：如何针对图像生成更加准确的场景图。/>[0006]根据本公开的一些实施例，提供的一种图像处理方法，包括：从图像中提取一个或多个目标对以及每个目标对的信息，其中，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息；根据每个目标对的信息确定每个目标对的视觉关系特征；根据每个目标对的视觉关系特征确定每个目标对的关系显著度；根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图。
[0007]在一些实施例中，根据每个目标对的信息确定每个目标对的视觉关系特征包括：针对每个目标对，根据第一目标的位置信息和第二目标的位置信息，确定包含第一目标和第二目标的最小矩形区域，作为并集区域，确定第一目标和第二目标的交叉区域，作为交集区域；确定并集区域的特征信息和位置信息，交集区域的特征信息和位置信息；根据该目标对的信息，并集区域的特征信息和位置信息，交集区域的特征信息和位置信息，确定该目标对的视觉关系特征。
[0008]在一些实施例中，根据该目标对的信息，并集区域的特征信息和位置信息，交集区域的特征信息和位置信息，确定该目标对的视觉关系特征包括：根据第一目标的特征信息，
第二目标的特征信息，并集区域的特征信息和交集区域的特征信息，确定该目标对对应的外观特征；根据第一目标的位置信息，第二目标的位置信息，并集区域的位置信息和交集区域的位置信息，确定该目标对对应的空间特征；根据第一目标的分类信息和第二目标的分类信息，确定该目标对对应的语义特征；根据该目标对对应的外观特征，空间特征和语义特征，确定该目标对的视觉关系特征。
[0009]在一些实施例中，根据第一目标的特征信息，第二目标的特征信息，并集区域的特征信息和交集区域的特征信息，确定该目标对对应的外观特征包括：分别将第一目标的特征信息，第二目标的特征信息，并集区域的特征信息和交集区域的特征信息输入外观特征提取器，映射成预设维度的特征向量，分别得到第一目标的外观特征，第二目标的外观特征，并集区域的外观特征和交集区域的外观特征；将第一目标的外观特征，第二目标的外观特征，并集区域的外观特征和交集区域的外观特征进行拼接，得到该目标对对应的外观特征。
[0010]在一些实施例中，针对第一目标的边界框区域，第二目标的边界框区域，并集区域和交集区域中的每个区域，从图像的特征图中提取每个区域的特征，分别作为第一目标的特征信息，第二目标的特征信息，并集区域的特征信息和交集区域的特征信息。
[0011]在一些实施例中，第一目标的位置信息包括第一目标的边界框的顶点坐标，第二目标的位置信息包括第二目标的边界框的顶点坐标，并集区域的位置信息包括并集区域的顶点坐标，交集区域的位置信息包括交集区域的顶点坐标，根据第一目标的位置信息，第二目标的位置信息，并集区域的位置信息和交集区域的位置信息，确定该目标对对应的空间特征包括：针对第一目标的边界框区域，第二目标的边界框区域，并集区域和交集区域中的每个区域，确定中心点的坐标，宽度和高度；根据该区域的中心点的坐标，顶点坐标，宽度，高度以及图像的宽度和高度，确定表示该区域在图像中位置和占比的空间特征；将第一目标的边界框区域的空间特征，第二目标的边界框区域的空间特征，交集区域的空间特征和并集区域的空间特征进行拼接，得到该目标对对应的空间特征。
[0012]在一些实施例中，分类信息包括：类别名称，根据第一目标的分类信息和第二目标的分类信息，确定该目标对对应的语义特征包括：将第一目标的类别名称编码后输入词嵌入矩阵，得到第一目标的词嵌入向量；将第二目标的类别名称编码后输入词嵌入矩阵，得到第二目标的词嵌入向量；将第一目标的词嵌入向量和第二目标的词嵌入向量进行拼接，得到该目标对对应的语义特征。
[0013]在一些实施例中，根据每个目标对的视觉关系特征确定每个目标对的关系显著度包括：针对每个目标对，将该目标对的视觉关系特征输入关系显著度估计器中的各个子分类器，得到各个子分类器输出的关系显著度级别的预测概率，其中，每个子分类器对应一种关系显著度级别；根据各个关系显著度级别对应的预测概率，确定该目标对的关系显著度。
[0014]在一些实施例中，根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图包括：将各个目标分别作为场景图中的节点，针对每个节点，根据该节点的特征信息，该节点的各个邻居节点的特征信息以及该节点与各个邻居节点组成的目标对的关系显著度，更新该节点的特征信息；针对场景图中的每条边，根据该边连接的两个节点的特征信息，该边连接的两个节点组成的目标对的视觉关系特征，确定该边的特征信息；根据各个节点的特征信息确定各个节点
的目标类别，根据各条边的特征信息确定各条边的谓语类别，以生成图像对应的带有关系显著度的场景图。
[0015]在一些实施例中，针对每个节点，根据该节点的特征信息，该节点的各个邻居节点的特征信息以及该节点与各个邻居节点组成的目标对的关系显著度，更新该节点的特征信息包括：在每一轮更新过程中，针对每个节点，根据该节点与各个邻居节点组成的目标对的关系显著度，选取预设数量的邻居节点作为关联节点；根据上一轮更新过程中更新后的该节点的特征信息，更新后的该节点的关联节点的特征信息，更新该节点的特征信息，其中，首轮更新过程每个节点的特征信息为从图像中提取的特征信息。
[0016]在一些实施例中，根据上一轮本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法，包括：从图像中提取一个或多个目标对以及每个目标对的信息，其中，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息；根据每个目标对的信息确定每个目标对的视觉关系特征；根据每个目标对的视觉关系特征确定每个目标对的关系显著度；根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成所述图像对应的带有关系显著度的场景图。2.根据权利要求1所述的图像处理方法，其中，所述根据每个目标对的信息确定每个目标对的视觉关系特征包括：针对每个目标对，根据所述第一目标的位置信息和所述第二目标的位置信息，确定包含所述第一目标和所述第二目标的最小矩形区域，作为并集区域，确定所述第一目标和所述第二目标的交叉区域，作为交集区域；确定所述并集区域的特征信息和位置信息，所述交集区域的特征信息和位置信息；根据该目标对的信息，所述并集区域的特征信息和位置信息，所述交集区域的特征信息和位置信息，确定该目标对的视觉关系特征。3.根据权利要求2所述的图像处理方法，其中，所述根据该目标对的信息，所述并集区域的特征信息和位置信息，所述交集区域的特征信息和位置信息，确定该目标对的视觉关系特征包括：根据所述第一目标的特征信息，所述第二目标的特征信息，所述并集区域的特征信息和所述交集区域的特征信息，确定该目标对对应的外观特征；根据所述第一目标的位置信息，所述第二目标的位置信息，所述并集区域的位置信息和所述交集区域的位置信息，确定该目标对对应的空间特征；根据所述第一目标的分类信息和所述第二目标的分类信息，确定该目标对对应的语义特征；根据该目标对对应的外观特征，空间特征和语义特征，确定该目标对的视觉关系特征。4.根据权利要求3所述的图像处理方法，其中，所述根据所述第一目标的特征信息，所述第二目标的特征信息，所述并集区域的特征信息和所述交集区域的特征信息，确定该目标对对应的外观特征包括：分别将所述第一目标的特征信息，所述第二目标的特征信息，所述并集区域的特征信息和所述交集区域的特征信息输入外观特征提取器，映射成预设维度的特征向量，分别得到所述第一目标的外观特征，所述第二目标的外观特征，所述并集区域的外观特征和所述交集区域的外观特征；将所述第一目标的外观特征，所述第二目标的外观特征，所述并集区域的外观特征和所述交集区域的外观特征进行拼接，得到该目标对对应的外观特征。5.根据权利要求2所述的图像处理方法，其中，针对所述第一目标的边界框区域，第二目标的边界框区域，所述并集区域和所述交集区域中的每个区域，从所述图像的特征图中提取每个区域的特征，分别作为所述第一目标的特征信息，所述第二目标的特征信息，所述并集区域的特征信息和所述交集区域的特征信息。
6.根据权利要求3所述的图像处理方法，其中，所述第一目标的位置信息包括所述第一目标的边界框的顶点坐标，所述第二目标的位置信息包括所述第二目标的边界框的顶点坐标，所述并集区域的位置信息包括所述并集区域的顶点坐标，所述交集区域的位置信息包括所述交集区域的顶点坐标，所述根据所述第一目标的位置信息，所述第二目标的位置信息，所述并集区域的位置信息和所述交集区域的位置信息，确定该目标对对应的空间特征包括：针对所述第一目标的边界框区域，第二目标的边界框区域，所述并集区域和所述交集区域中的每个区域，确定中心点的坐标，宽度和高度；根据该区域的中心点的坐标，顶点坐标，宽度，高度以及所述图像的宽度和高度，确定表示该区域在所述图像中位置和占比的空间特征；将所述第一目标的边界框区域的空间特征，所述第二目标的边界框区域的空间特征，所述交集区域的空间特征和所述并集区域的空间特征进行拼接，得到该目标对对应的空间特征。7.根据权利要求3所述的图像处理方法，其中，所述分类信息包括：类别名称，所述根据所述第一目标的分类信息和所述第二目标的分类信息，确定该目标对对应的语义特征包括：将所述第一目标的类别名称编码后输入词嵌入矩阵，得到所述第一目标的词嵌入向量；将所述第二目标的类别名称编码后输入词嵌入矩阵，得到所述第二目标的词嵌入向量；将所述第一目标的词嵌入向量和所述第二目标的词嵌入向量进行拼接，得到该目标对对应的语义特征。8.根据权利要求1所述的图像处理方法，其中，所述根据每个目标对的视觉关系特征确定每个目标对的关系显著度包括：针对每个目标对，将该目标对的视觉关系特征输入关系显著度估计器中的各个子分类器，得到各个子分类器输出的关系显著度级别的预测概率，其中，每个子分类器对应一种关系显著度级别；根据各个关系显著度级别对应的预测概率，确定该目标对的关系显著度。9.根据权利要求1所述的图像处理方法，其中，所述根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成所述图像对应的带有关系显著度的场景图包括：将各个目标分别作为场景图中的节点，针对每个节点，根据该节点的特征信息，该节点的各个邻居节点的特征信息以及该节点与各个邻居节点组成的目标对的关系显著度，更新该节点的特征信息；针对所述场景图中的每条边，根据该边连接的两个节点的特征信息，该边连接的两个节点组成的目标对的视觉关系特征，确定该边的特征信息；根据各个节点的特征信息确定各个节点的目标类别，根据各条边的特征信息确定各条边的谓语类别，以生成所述图像对应的带有关系显著度的场景图。10.根据权利要求9所述的图像处理方法，其中，所述针对每个节点，根据该节点的特征
信息，该节点的各个邻居节点的特征信息以及该节点与各个邻居节点组成的目标对的关系显著度，更新该节点的特征信息包括：在每一轮更新过程中，针对每个节点，根据该节点与各个邻居节点组成的目标对的关系显著度，选取预设数量的邻居节点作为关联节点；根据上一轮更新过程中更新后的该节点的特征信息，更新后的该节点的关联节点的特征信息，更新该节点的特征信息，其中，首轮更新过程每个节点的特征信息为从所述图像中提取的特征信息。11.根据权利要求10所述的图像处理方法，其中，所述根据上一轮更新过程中更新后的该节点的特征信息，更新后的该节点的关联节点的特征信息，更新该节点的特征信息包括：针对该节点的每个关联节点，基于注意力机制确定由该节点到该关联节点进行消息聚合的第一权重，以及该关联节点到该节点进行消息聚合的第二权重；根据上一轮更新过程中更新后的各个关联节点的特征信息以及各个关联节点对应的第一权重和第二权重，对上一轮更新过程中更新后的各个关联节点的特征信息进行融合，得到本轮更新过程中该节点对应的融合特征信息；将上一轮更新过程中更新后的该节点的特征信息和本轮更新过程中该节点对应的融合特征信息输入第一门控循环单元GRU，得到本轮的更新过程中更新后的该节点的特征信息。12.根据权利要求10所述的图像处理方法，其中，针对所述场景图中的每条边，根据该边连接的两个节点的特征信息，该边连接的两个节点组成的目标对的视觉关系特征，确定该边的特征信息包括：在每一轮的更新过程中，针对所述场景图中的每条边，根据上一轮更新过程中更新后的该边连接的两个节点的特征信息，确定本轮更新过程中该边对应的融合特征信息；将上一轮更新过程中确定的该边的特征信息和本轮更新过程中该边对应的融合特征信息输入第二门控循环单元GRU，得到本轮的更新过程中确定的该边的特征信息，其中，首轮更新过程每条边的特征信息为该边连接的两个节点组成的目标对的视觉关系特征。13.根据权利要求12所述的图像处理方法，其中，所述在每一轮的更新过程中，针对所述场景图中的每条边，根据上一轮更新过程中更新后的该边连接的两个节点的特征信息，确定本轮更新过程中该边对应的融合特征信息包括：在每一轮的更新过程中，针对所述场景图中的每条边，将沿着该边的方向的起始节点和终止节点的特征信息进行拼接，并将拼接后的特征信息输入...

【专利技术属性】
技术研发人员：潘滢炜，姚霆，梅涛，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人