【技术实现步骤摘要】
本专利技术属于计算机视觉,更为具体地讲,涉及一种广义无偏差场景图生成方法。
技术介绍
1、近年来,随着深度神经网络的快速发展,对计算机视觉领域的探索已经不仅仅局限于感知,而是提出更高的要求——图像理解。高层次语义理解应用任务需要依赖视觉场景图(visual scene graph)作为其特征被广泛应用于各个领域。因此也延伸出诸如图像描述、视觉语言问答、图像检索等多模态领域的应用任务。
2、视觉场景图是对图像的内容的高度概括,它以图像中的目标为节点,以目标与目标之间的关系为边组成的图结构。场景图生成任务输入一张图像,经过目标检测器探测出图像所包含的目标(边框坐标及类别),随后经过关系分类头探测出目标与目标之间的谓词关系。现有的场景图生成方法大多数使用一个两阶段的目标检测模型——faster r-cnn用于检测目标的边框坐标及类别。
3、然而,由于广泛使用的场景图生成数据集visual genome中,标签存在天然的长尾分布,如果仅使用线性分类器等方法会导致模型对谓词数量位于头部分布的谓词产生偏差,模型会更倾向于预测
...【技术保护点】
1.一种广义无偏差场景图生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的广义无偏差场景图生成方法,其特征在于,所述步骤S3中场景图生成模型训练时所采用损失的计算方法为:
【技术特征摘要】
1.一种广义无偏差场景图生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的...
【专利技术属性】
技术研发人员:高联丽,谢浚霖,曾鹏鹏,宋井宽,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。