一种基于对比学习的场景图生成方法及系统技术方案

技术编号：40962331 阅读：2 留言：0更新日期：2024-04-18 20:41

本发明专利技术属于场景图生成领域，提供了基于对比学习的场景图生成方法及系统。其中，场景图生成方法包括获取需要推理得到场景图的图片；利用场景图生成模型对获取的当前图片进行处理，生成场景图；其中，利用场景图生成模型处理当前图片的过程为：提取当前图片的场景信息特征向量、当前图片的语义特征图、目标对象的位置信息和物体类别信息；将当前图片的场景信息特征向量、语义特征图、目标对象的位置信息和物体类别信息进行连接形成各个目标对象的关系特征向量；将目标对象两两组合，基于目标对象的关系特征向量的相似性来判断两个目标对象间的关系；将判断目标对象间的关系转换为图结构，得到当前图片的场景图。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于场景图生成领域，尤其涉及一种基于对比学习的场景图生成方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、视觉关系推理是目前计算机视觉领域中一个富有挑战性的课题。场景图是图像语义信息的一种抽象表示，它以图像中物体为顶点、物体之间的关系为边，它可以通过更高层次的视觉理解，辅助视觉关系的推理，场景图生成任务因此目前已经成为计算机视觉的热门研究方向之一。

3、目前，场景图生成模型已经基本具备了将图像生成基本场景图的能力，但仍存在以下问题：

4、(1)目前常用的场景图生成模型训练数据集中，不同关系的数量分布并不相同，存在严重的长尾问题。具体表现为：某些关系类型的样本数量很少，而其他关系类型的样本数量很多，这导致训练好的模型在推理时，更加偏向于预测出数据集中样本数量大的关系类型，在生成场景图时对于少数关系类型的预测效果较差，无法准确地识别出这些关系的类型，严重影响模型的输出准确度和输出场景图的质量。

5、(2)由于场景图生成模型的数据集标注更加繁琐，目前常用的数据集中部分关系被标注者遗漏标注。这也导致了在模型训练时，无法从标注数据中学习到完整的场景图，最终导致训练好的模型在推理时无法更加准确地识别出所有的关系，建立场景图能力较差。

技术实现思路

1、为了解决上述
技术介绍
中存在的至少一项技术问题，本专利技术提供一种基于对比学习的场景图生成方法及系统，其能够提高场景图生成模型的输

2、为了实现上述目的，本专利技术采用如下技术方案：

3、本专利技术的第一个方面提供一种基于对比学习的场景图生成方法。

4、一种基于对比学习的场景图生成方法，其包括：

5、获取需要推理得到场景图的图片；

6、利用场景图生成模型对获取的当前图片进行处理，生成场景图；

7、其中，利用场景图生成模型处理当前图片的过程为：

8、提取当前图片的场景信息特征向量、当前图片的语义特征图、目标对象的位置信息和物体类别信息；

9、将当前图片的场景信息特征向量、语义特征图、目标对象的位置信息和物体类别信息进行连接形成各个目标对象的关系特征向量；

10、将目标对象两两组合，基于目标对象的关系特征向量的相似性来判断两个目标对象间的关系；

11、将判断目标对象间的关系转换为图结构，得到当前图片的场景图。

12、目标对象的关系特征向量的相似性采用余弦相似度来表征。

13、作为一种实施方式，训练场景图生成模型的损失函数由目标对象识别损失函数、目标对象的关系分类损失函数和对比学习损失函数。

14、作为一种实施方式，在训练场景图生成模型之前，还包括：

15、获取数据集，所述数据集中已标注场景图信息的图片为样本；

16、提取数据集中各个样本的场景信息特征向量，利用向量数据库建立索引，使得场景信息特征向量与数据集中图片序号一一对应；

17、抽取数据集中各个样本中的文字描述所对应的语义特征图；

18、统计数据集中各个样本中所有关种类出现的频次并组成关系分布向量，利用向量数据库建立索引，使得关系分布向量与数据集中图片序号一一对应；

19、初始化一个与关系分布向量相同维度的向量，定义其为对比误差向量，并使用随机正数初始化各维度值；初始化完成后，将其与图片序号对应并保存。

20、作为一种实施方式，在计算对比学习损失的过程中：

21、取出数据集中任一样本对应的场景信息特征向量，利用向量数据库索引，使用余弦相似度算法，对应选择相似度最大的若干张图片；

22、取出数据集中任一样本对应的对比误差向量，使用向量数据库索引，使用余弦相似度算法，对应选择相似度最大的若干张图片；

23、利用上述所有选择出的图片进行计算对比学习损。

24、作为一种实施方式，在计算对比学习损失函数的过程中，对于任意两个关系，若二者在数据集中标注为同一类别，且二者的关系特征向量相似度趋于1时，损失趋于0；二者的关系特征向量相似度趋于-1时，损失趋于1；

25、若二者在数据集中标注为非同一类别，且二者的关系特征向量相似度趋于-1时，损失趋于0；二者的关系特征向量相似度趋于1时，损失趋于1。

26、作为一种实施方式，所述场景图生成模型包括场景语义提取模型、目标检测模型、关系编码器、对比学习模块及输出模块；

27、所述场景语义提取模型用于提取当前图片的场景信息特征向量；

28、所述目标检测模型用于提取出当前图片的语义特征图、目标对象的位置信息和物体类别信息；

29、所述关系编码器用于将当前图片的场景信息特征向量、语义特征图、目标对象的位置信息和物体类别信息进行连接形成各个目标对象的关系特征向量；

30、所述对比学习模块用于将目标对象两两组合，基于目标对象的关系特征向量的相似性来判断两个目标对象间的关系；

31、所述输出模块用于将判断目标对象间的关系转换为图结构，得到当前图片的场景图。

32、本专利技术的第二个方面提供一种基于对比学习的场景图生成方法。

33、一种基于对比学习的场景图生成方法，其包括：

34、图片获取模块，其用于获取需要推理得到场景图的图片；

35、场景图生成模块，其用于利用场景图生成模型对获取的当前图片进行处理，生成场景图；

36、其中，利用场景图生成模型处理当前图片的过程为：

37、提取当前图片的场景信息特征向量、当前图片的语义特征图、目标对象的位置信息和物体类别信息；

38、将当前图片的场景信息特征向量、语义特征图、目标对象的位置信息和物体类别信息进行连接形成各个目标对象的关系特征向量；

39、将目标对象两两组合，基于目标对象的关系特征向量的相似性来判断两个目标对象间的关系；

40、将判断目标对象间的关系转换为图结构，得到当前图片的场景图。

41、本专利技术的第三个方面提供一种计算机可读存储介质。

42、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于对比学习的场景图生成方法中的步骤。

43、本专利技术的第四个方面提供一种电子设备。

44、一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于对比学习的场景图生成方法中的步骤。

45、与现有技术相比，本专利技术的有益效果是：

46、(1)本专利技术通过将当前图片的场景信息特征向量、语义特征图、目标对象的位置信息和物体类别信息进行连接形成各个目标对象的关系特征向量，将目标对象两两组合，基于目标对象的关系特征向量的相似性来判断两个目本文档来自技高网...

【技术保护点】

1.一种基于对比学习的场景图生成方法，其特征在于，包括：

2.如权利要求1所述的基于对比学习的场景图生成方法，其特征在于，目标对象的关系特征向量的相似性采用余弦相似度来表征。

3.如权利要求1所述的基于对比学习的场景图生成方法，其特征在于，训练场景图生成模型的损失函数由目标对象识别损失函数、目标对象的关系分类损失函数和对比学习损失函数。

4.如权利要求3所述的基于对比学习的场景图生成方法，其特征在于，在训练场景图生成模型之前，还包括：

5.如权利要求4所述的基于对比学习的场景图生成方法，其特征在于，在计算对比学习损失的过程中：

6.如权利要求5所述的基于对比学习的场景图生成方法，其特征在于，在计算对比学习损失函数的过程中，对于任意两个关系，若二者在数据集中标注为同一类别，且二者的关系特征向量相似度趋于1时，损失趋于0；二者的关系特征向量相似度趋于-1时，损失趋于1；

7.如权利要求1所述的基于对比学习的场景图生成方法，其特征在于，所述场景图生成模型包括场景语义提取模型、目标检测模型、关系编码器、对比学习模块及输出模块；

8.一种基于对比学习的场景图生成系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于对比学习的场景图生成方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于对比学习的场景图生成方法中的步骤。

...

【技术特征摘要】

1.一种基于对比学习的场景图生成方法，其特征在于，包括：

2.如权利要求1所述的基于对比学习的场景图生成方法，其特征在于，目标对象的关系特征向量的相似性采用余弦相似度来表征。

4.如权利要求3所述的基于对比学习的场景图生成方法，其特征在于，在训练场景图生成模型之前，还包括：

5.如权利要求4所述的基于对比学习的场景图生成方法，其特征在于，在计算对比学习损失的过程中：

6.如权利要求5所述的基于对比学习的场景图生成方法，其特征在于，在计算对比学习损失函数的过程中，对于任意两个关系，若二者在数据集中标...

【专利技术属性】
技术研发人员：周风余，陈建业，朱振威，王哲，高鹤，牟珊珊，尹磊，苏大龙，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人