一种广义无偏差场景图生成方法技术

技术编号：40417672 阅读：29 留言：0更新日期：2024-02-20 22:35

本发明专利技术公开了一种广义无偏差场景图生成方法，对场景图生成数据集中的谓词进行语义规模定量分析确定概念原型数量，然后基于超球体初始化概念原型，构建包括目标检测器，主宾语上下文编码器，平衡记忆模块，概念原型特征生成模块，多头注意力模块，特征融合模块，概念匹配模块，平衡记忆队列更新模块和场景图构建模块的场景图生成模型，采用场景图生成数据集对场景图生成模型进行训练，将需要生成场景图的图像输入训练好的场景图生成模型，得到对应的场景图。本发明专利技术针对谓词级别和概念级别的不平衡问题设置了场景图生成模型，使得生成的场景图更加合理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉，更为具体地讲，涉及一种广义无偏差场景图生成方法。

技术介绍

1、近年来，随着深度神经网络的快速发展，对计算机视觉领域的探索已经不仅仅局限于感知，而是提出更高的要求——图像理解。高层次语义理解应用任务需要依赖视觉场景图(visual scene graph)作为其特征被广泛应用于各个领域。因此也延伸出诸如图像描述、视觉语言问答、图像检索等多模态领域的应用任务。

2、视觉场景图是对图像的内容的高度概括，它以图像中的目标为节点，以目标与目标之间的关系为边组成的图结构。场景图生成任务输入一张图像，经过目标检测器探测出图像所包含的目标(边框坐标及类别)，随后经过关系分类头探测出目标与目标之间的谓词关系。现有的场景图生成方法大多数使用一个两阶段的目标检测模型——faster r-cnn用于检测目标的边框坐标及类别。

3、然而，由于广泛使用的场景图生成数据集visual genome中，标签存在天然的长尾分布，如果仅使用线性分类器等方法会导致模型对谓词数量位于头部分布的谓词产生偏差，模型会更倾向于预测...

【技术保护点】

1.一种广义无偏差场景图生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的广义无偏差场景图生成方法，其特征在于，所述步骤S3中场景图生成模型训练时所采用损失的计算方法为：

【技术特征摘要】

1.一种广义无偏差场景图生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的...

【专利技术属性】
技术研发人员：高联丽，谢浚霖，曾鹏鹏，宋井宽，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人