一种全开放词表场景图生成方法技术

技术编号：41014117 阅读：3 留言：0更新日期：2024-04-18 21:51

本发明专利技术公开了一种全开放词表场景图生成方法，包括以下步骤：S1，获取带有目标、关系、属性标注的公开数据集，或获取RGB彩色图并进行类别标注，将得到的数据划分为训练集样本和测试集样本；S2，构建全开放词表场景图生成模型，并利用训练集样本对全开放词表场景图生成模型进行训练；S3，将测试集样本输入训练好的全开放词表场景图生成模型中，输出相应的场景图结构。本发明专利技术通过在开放词表场景图生成任务中增加对属性的开放词表识别，辅助提高了目标检测的准确率，增强了对图像的理解表示能力，扩大了场景图的应用场景，且同时输出场景图所需的目标、关系和属性，所有类别均不受限制，提高了对图像的理解表示能力以及减少了推理耗时。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉与图像处理，更具体的说是涉及一种全开放词表场景图生成方法。

技术介绍

1、场景图(scene graph)是一种语义化的图结构，可以作为图像的表示。图像中的目标是图节点，目标间的关系对应图的边。场景图生成任务目标就是输出场景图作为图像的结构化表示，以rgb图像作为输入，预测目标位置、语义类别和目标间的关系。场景图生成是许多视觉应用的基础，如图像说明、视觉问答、视觉推理。为了使生成的场景图更实用，更具挑战性的开放词表场景图生成任务被提出，可以预测不在训练目标语义类别和训练关系类别中的目标语义类别和关系类别，即可预测的目标语义类别和关系类别不受限制。

2、目标的语义类别只是目标的简化表征，目标还具有各种属性，如颜色、材质、形状、状态等。有文献表明，了解物体的属性也可以极大的促进物体的识别和检测。

3、例如，公开号为cn116524513a的专利公开了一种开放词表场景图生成方法、系统、设备及存储介质，方案中：利用视觉特征抽取的方法抽取输入图像的表征，再作用于实体查询和关系查询，以生成包含有不同区域上下文信息的实体与关系视觉特征；基于单一提示以及基于自适应层级提示生成实体与关系文本表征；基于实体与关系视觉特征、实体与关系文本表征生成开放词表场景图。上述方案利用视觉表征和文本表征对齐的方式进行实体识别和关系识别，同时充分利用了图像所蕴含的丰富上下文信息识别长距离实体的关系，并利用关系类别的层级结构使易混淆的类别更容易被视觉表征区分，其缺陷在于一对目标只能有一种关系，然而同一对目标之间也可能有

4、因此，如何提供一种目标、关系和属性类别均不受限的全开放词表场景图生成方法是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本专利技术提供了一种全开放词表场景图生成方法，通过增加对属性的开放词表识别，辅助提高了物体检测的准确率，增强了对图像的理解表示能力，扩大了场景图的应用场景。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、一种全开放词表场景图生成方法，包括以下步骤：

4、s1，获取带有目标、关系、属性标注的公开数据集，同时获取应用场景下的rgb彩色图并进行目标、关系和属性类别标注，将带标注的数据集划分为训练集样本和测试集样本；

5、s2，构建全开放词表场景图生成模型，并利用所述训练集样本对所述全开放词表场景图生成模型进行训练；

6、s3，将所述测试集样本输入训练好的全开放词表场景图生成模型中，输出相应的场景图结构。

7、进一步的，步骤s2中构建的全开放词表场景图生成模型包括关系提示向量学习子模型、属性提示向量学习子模型、类不可知区域生成器和分类预测模块。

8、进一步的，所述关系提示向量学习子模型训练过程为：

9、利用视觉-语言模型预训练好的文本编码器对增加可学习关系提示向量的关系类别进行编码，得到关系文本特征；

10、从所述训练集样本上裁剪出关系区域图，利用视觉-语言模型预训练好的图像编码器对所述关系区域图进行编码，得到裁剪关系区域图特征；

11、利用所述分类预测模块对所述关系文本特征和所述裁剪关系区域图特征的相似度进行计算，得到裁剪图关系预测值。

12、进一步的，所述关系提示向量学习子模型的训练过程还包括：

13、根据所述裁剪图关系预测值和关系标注值计算关系多标签分类损失。

14、进一步的，所述属性提示向量学习子模型训练过程为：

15、利用视觉-语言模型预训练好的文本编码器对增加属性提示向量的属性类别及父属性类别进行编码，得到属性文本特征；

16、从所述训练集样本上裁剪出目标区域作为裁剪区域图，利用视觉-语言模型预训练好的图像编码器对所述裁剪区域图进行编码，得到裁剪区域图特征；

17、利用所述分类预测模块对所述属性文本特征和所述裁剪区域图特征的相似度进行计算，得到裁剪图属性预测值。

18、进一步的，所述属性提示向量学习子模型的训练过程还包括：

19、根据所述裁剪图属性预测值和属性标注值计算属性多标签分类损失。

20、进一步的，所述类不可知区域生成器训练过程为：

21、所述训练集样本经过所述类不可知区域生成器后，得到目标框坐标预测值、目标置信度预测值、实体区域特征和关系区域特征；

22、利用所述分类预测模块对所述关系区域特征和所述关系文本特征进行计算，得到关系预测值；

23、利用所述分类预测模块对所述实体区域特征和所述属性文本特征进行计算，得到属性预测值。

24、进一步的，所述类不可知区域生成器的训练过程还包括：

25、根据所述目标框坐标预测值和目标框坐标标注值计算目标框损失；

26、根据所述目标置信度预测值和目标置信度标注值计算目标置信度损失；

27、根据所述关系预测值和关系标注值计算关系区域多标签分类损失；

28、根据所述属性预测值和属性标注值计算属性区域多标签分类损失；

29、根据所述实体区域特征和所述裁剪区域图特征计算框区域蒸馏损失；

30、根据所述关系区域特征和所述裁剪关系区域图特征计算关系区域蒸馏损失。

31、经由上述的技术方案可知，与现有技术相比，本专利技术具有如下有益效果：

32、(1)通过在开放词表场景图生成任务中增加对属性的开放词表识别，辅助提高了目标检测的准确率，增强了对图像的理解表示能力，扩大了场景图的应用场景。

33、(2)目标、属性、关系均采用多标签分类，更贴合实际场景。

34、(3)同时输出场景图所需的目标、关系和属性，且所有类别均不受限制，提高了对图像的理解表示能力以及减少了推理耗时。

本文档来自技高网...

【技术保护点】

1.一种全开放词表场景图生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种全开放词表场景图生成方法，其特征在于，步骤S2中构建的全开放词表场景图生成模型包括关系提示向量学习子模型、属性提示向量学习子模型、类不可知区域生成器和分类预测模块。

3.根据权利要求2所述的一种全开放词表场景图生成方法，其特征在于，所述关系提示向量学习子模型训练过程为：

4.根据权利要求3所述的一种全开放词表场景图生成方法，其特征在于，所述关系提示向量学习子模型的训练过程还包括：

5.根据权利要求3所述的一种全开放词表场景图生成方法，其特征在于，所述属性提示向量学习子模型训练过程为：

6.根据权利要求5所述的一种全开放词表场景图生成方法，其特征在于，所述属性提示向量学习子模型的训练过程还包括：

7.根据权利要求5所述的一种全开放词表场景图生成方法，其特征在于，所述类不可知区域生成器训练过程为：

8.根据权利要求7所述的一种全开放词表场景图生成方法，其特征在于，所述类不可知区域生成器的训练过程还包括：

【技术特征摘要】

1.一种全开放词表场景图生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种全开放词表场景图生成方法，其特征在于，步骤s2中构建的全开放词表场景图生成模型包括关系提示向量学习子模型、属性提示向量学习子模型、类不可知区域生成器和分类预测模块。

3.根据权利要求2所述的一种全开放词表场景图生成方法，其特征在于，所述关系提示向量学习子模型训练过程为：

4.根据权利要求3所述的一种全开放词表场景图生成方法，其特征在于，所述关系提示向量学习子模型的...

【专利技术属性】
技术研发人员：赵惠，张鹏飞，苏江，
申请(专利权)人：暗物质北京智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人