【技术实现步骤摘要】
基于多轮迭代策略和差异性感知的场景图生成方法
[0001]本专利技术涉及图像理解领域,具体涉及一种基于多轮迭代策略和差异性感知的场景图生成方法。
技术介绍
[0002]场景图生成技术旨在基于给定的图像自动识别其中的目标,并描述目标之间的关系,生成一系列由形如<主语
‑
关系
‑
宾语>的三元组构成的图结构。场景图生成技术可以对视觉图像内容进行充分理解,概括图像的主要语义信息,充当跨越模态间语义鸿沟的桥梁,以便进一步处理和智能创作,因此具有很高的研究价值与实用价值。
[0003]对于场景图生成技术来说,一个关键的挑战是如何精确地预测所识别目标之间的关系。因为相比于目标,关系具有更为抽象的语义,并且在图像中并不能严格精确地定位到某个具体区域。最近,文本模态的信息被广泛研究用来辅助增强关系视觉特征,比如统计发现关系和目标之间存在一定的共现分布,主流方法也据此逐渐将引入检测出的目标类别的语义参与到特征融合中。但引入这样少量的文本信息对关系预测的促进作用仍比较有限,因 ...
【技术保护点】
【技术特征摘要】
1.一种基于多轮迭代策略和差异性感知的场景图生成方法,包括以下步骤:步骤一、场景图初始化:提取给定图像中目标的特征,得到场景图中节点的节点特征,以及融合了节点特征的边特征;场景图中的节点代表主语或者宾语,边代表主语与宾语之间的关系;步骤二:将边特征输入至分类器进行预测,得到预测关系语义和更新后的边特征;将更新后的边特征重新输入至分类器进行预测;步骤三:采用多轮迭代策略,重复运行n轮步骤二,得到最终的场景图;在相邻的两轮迭代间进行差异性感知:以场景图中节点的节点特征作为第轮迭代时的上下文信息;以场景图中节点的节点特征作为第轮迭代时的上下文信息;将第轮迭代中得到的节点和相邻节点之间的预测关系语义,输入到预训练的自然语言编码器获得语义向量;将第轮迭代中得到的节点和相邻节点之间的预测关系语义,输入到预训练的自然语言编码器获得语义向量,则:第轮迭代中,上下文信息在本轮迭代和上一轮迭代间的差异向量;第轮迭代中,预测关系语义在本轮迭代和上一轮迭代间的差异向量;代表差异性算子,;利用差异性感知结果对节点特征和边特征进行更新,得到步骤二中所述的更新后的边特征:第轮迭代中节点更新后的节点特征;其中,和为可学习维度转换权重,第轮迭代中节点更新前的节点特征,为sigmoid激活函数,为第轮迭代中节点和节点之间的边的边特征,[;]代表拼接操作;对于边特征,首先使用差异向量进行更新...
【专利技术属性】
技术研发人员:张勇东,毛震东,赵慧婷,赵博文,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。