当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于流模型的信息几何因果场景图像生成方法技术

技术编号:36787652 阅读:13 留言:0更新日期:2023-03-08 22:32
本发明专利技术公开了一种基于流模型的信息几何因果场景图像生成方法,通过损失函数的训练构建了节点对中的第一节点和第二节点数据集分别到最终隐编码集的函数关系,并基于到最终隐编码集的函数关系得到了第一节点指向第二节点的函数关系和第二节点指向第一节点的函数关系,基于上述两个函数关系采用IGCI模型分别得到上述两个指向关系的分数,将分数较低的作为第一节点与第二节点的最终指向关系,即因果关系;利用该方法通过引入最终隐编码集能够较为准确的获得节点集之间的函数关系,基于准确的函数关系能够使得IGCI模型能够准确获得节点间因果关系。点间因果关系。点间因果关系。

【技术实现步骤摘要】
一种基于流模型的信息几何因果场景图像生成方法


[0001]本专利技术属于计算机图像数据处理领域,具体涉及一种基于流模型的信息几何因果场景图像生成方法。

技术介绍

[0002]场景图生成任务起初又被称为视觉关系检测(Visual Relationship Detection),其主要的任务就是能够像人一样对图像内容实现更高层次的语义理解。场景图生成任务是在计算机视觉和自然语言处理两个学科交叉下的提出,并逐渐成为一个当前计算机视觉领域和自然语言处理相结合的热点研究课题。
[0003]场景图像生成任务是目前人工智能领域的重要研究课题之一,很多的研究学者不断探索和研究针对图像深度理解领域中的问题,为了加深对图像理解的研究,在目标识别、图像字幕、视觉问答以及自然语言处理等研究基础下,场景图生成任务逐渐成为一个当前计算机视觉领域和自然语言处理相结合的热点研究课题。场景图生成任务要求丰富而高级的语义理解,这对机器来说是一个巨大的挑战。
[0004]当从图像任务到其他任务中时,需要两种甚至多种不同形式的“信息”之间进行转换,而在两种不同形式的“信息”转换,需要一种范式或者结构来表达,场景图由于其简单而明确的结构对视觉任务和语言任务相结合有非常大的优势,而其中的关系用最基础的结构化三元组(<主体

关系谓词

客体>)来表示。通过三元组的表示可以用于图像素检索,目标识别,人体姿态估计,图像分割,图像字幕,视觉问答和视觉导航领域。
[0005]对场景图像中的因果关系进行探索和发现是场景图像生成的核心问题,蕴含着丰富的科学发现机会和巨大的商业价值,基于非时序观察数据的因果关系发现方法能够从被动观察获得的数据中发现变量之间的因果关系,因而在各领域有广泛应用,这一类方法在过去三十年取得很大进展,已经成为因果关系发现的重要途径。
[0006]而基于约束的方法主要包括因果骨架学习和因果方向推断两个阶段:首先基于因果马尔可夫假设,采用条件独立性检验学习变量之间的因果骨架,然后基于奥卡姆剃刀准则利用V

结构确定因果方向,典型的算法有Peter

Clark(PC)算法、Inductive Causation算法,但这类方法的主要不足是存在部分无法判断的因果关系方向,从而无法生成高质量的场景图像。

技术实现思路

[0007]本申请提供了一种基于流模型的信息几何因果场景图像生成方法,该方法能够准确获得高维度下的有向无环图进而生成高质量图像的图像生成方法。
[0008]一种基于流模型的信息几何因果场景图像生成方法,包括:(1)将获得的标注对象的场景图像通过VGG模型得到物体编码;采用PC模型基于物体编码得到部分有向无环图;(2)构建初始流模型,包括第一单元和第二单元,第一单元和第二单元均依次包括
重叠层和耦合层,重叠层包括多层子单元,每个子单元依次包括耦合层和反转层,其中:提取部分有向无环图中需要确定因果关系的节点对数据,节点对数据集构建训练样本集,节点对数据集包括第一节点数据集和第二节点数据集,将第一节点数据输入第一单元得到第一预测隐编码,将第一预测隐编码逆向通过第一单元得到第一节点预测数据;将第二节点数据输入第二单元得到第二预测隐编码,将第二预测隐编码逆向通过第二单元得到第二节点预测数据;(3)构建总损失函数,包括第一节点损失函数,第二节点损失函数和隐编码损失函数,基于第一节点预测数据采用对数似然函数构建第一节点损失函数,基于第二节点预测数据采用对数似然函数构建第二节点损失函数,第一预测隐编码和第二预测隐编码的差值构建隐编码损失函数;(4)基于训练样本集通过总损失函数训练初始流模型得到第一节点数据集与第二节点数据集之间的映射关系、最终预测隐编码集和最终流模型;基于第一节点数据集与第二节点数据集之间的函数关系和最终预测隐编码集采用IGCI模型得到第一节点数据集与第二节点数据集的因果关系,从而将部分有向无环图补全得到完整有向无环图,将完整有向无环图输入至带有因果关系判断的图像生成器得到生成图像。
[0009]所述获得的标注对象的场景图,所述标注的方法,包括:将图像中的对象通过标框进行标注,标框中包含对象的类别、大小以及位置,当多个对象发生重叠,标框中包含未发生重叠的部分。
[0010]所述采用PC模型基于物体编码得到部分有向无环图,包括:基于物体编码得到节点集合,对节点集合中的任意两个节点之间生成连边得到完全无向图,基于d

分离原则使得每一节点对获得分离集合,基于分离集合删除多余的边,如果每一节点对的共同邻居节点未包含在分离集合则构成V型结构,在V型结构中将节点对中的节点同时指向共同邻居节点,从而得到初始部分有向无环图,对初始部分有向无环图采用额外的规则判断部分连边的方向得到部分有向无环图。
[0011]所述对初始部分有向无环图采用额外的规则判断部分连边的方向得到部分有向无环图,所述额外的规则包括第一规则、第二规则和第三规则,其中:获得节点1、节点2、节点3和节点4,第一规则为:当节点1指向节点2,且节点1和节点3不相邻时,节点2和节点3的边定向为节点2指向节点3;第二规则为:当节点1指向节点2,节点2指向节点3时,将节点1和节点3的边定向为节点1指向节点3;第三规则为:当节点1为节点2的邻居节点,节点2指向节点3,节点1为节点4的邻居节点,节点4指向节点3,节点2和节点4不相邻时,将节点1和节点3的边定向为节点1指向节点3。
[0012]所述将第一节点数据输入第一单元得到第一预测隐编码,包括:(1)当第一节点数据输入子单元的耦合层时,第一节点数据的一部分进行恒等变换得到第一恒等变换数据,第一节点数据的另一部分进行仿射变换得到第一仿射变换数据,将第一恒等变换数据和第一仿射变换数据进行组合得到第一变换数据;(2)当第一变换数据输入子单元的反转层时,第一仿射变换数据进行恒等变换得到第二恒等变换数据,第一恒等变换数据进行仿射变换得到第二仿射变换数据,将第二恒等变换数据和第二仿射变换数据进行组合得到第二变换数据;
(3)迭代步骤(1)和(2),直到达到迭代次数阈值得到多次变换数据;(4)将多次变换数据再次输入耦合层得到第一预测隐编码。
[0013]第一节点数据的一部分进行恒等变换得到第一恒等变换数据为:第一节点数据的另一部分进行仿射变换得到第一仿射变换数据为:其中, 为从第个维度开始进行划分, 为第一节点数据第1维到第维的部分; 为第一节点数据的第 维到 维的部分;和
ꢀꢀ
分别表示放缩和平移函数, 表示矩阵对应元素相乘。
[0014]所述总损失函数包括第一节点损失函数L1,第二节点损失函数L2和隐编码损失函数L3,其中:第一节点损失函数L1为:第一节点损失函数L2为:隐编码损失函数L3为:其中, 为
ꢀꢀ
映射到
ꢀꢀ
的函数, 为
ꢀꢀ
映射到
ꢀꢀ
的函数,N为第一节点数据和第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于流模型的信息几何因果场景图像生成方法,其特征在于,包括:S1:将获得的标注对象的场景图像通过VGG模型得到物体编码;采用PC模型基于物体编码得到部分有向无环图;S2:构建初始流模型,包括第一单元和第二单元,第一单元和第二单元均依次包括重叠层和耦合层,重叠层包括多层子单元,每个子单元依次包括耦合层和反转层,其中:提取部分有向无环图中需要确定因果关系的节点对数据集,节点对数据集构建训练样本集,节点对数据集包括第一节点数据集和第二节点数据集;将第一节点数据输入第一单元得到第一预测隐编码,将第一预测隐编码逆向通过第一单元得到第一节点预测数据;将第二节点数据输入第二单元得到第二预测隐编码,将第二预测隐编码逆向通过第二单元得到第二节点预测数据;S3:构建总损失函数,包括第一节点损失函数,第二节点损失函数和隐编码损失函数,基于第一节点预测数据采用对数似然函数构建第一节点损失函数,基于第二节点预测数据采用对数似然函数构建第二节点损失函数,第一预测隐编码和第二预测隐编码的差值构建隐编码损失函数;S4:基于训练样本集通过总损失函数训练初始流模型得到第一节点数据集与第二节点数据集之间的函数关系、最终预测隐编码集和最终流模型;基于第一节点数据集与第二节点数据集之间的函数关系和最终预测隐编码集采用IGCI模型得到第一节点数据集与第二节点数据集的因果关系,从而将部分有向无环图补全得到完整有向无环图,将完整有向无环图输入至带有因果关系判断的图像生成器得到生成图像。2.根据权利要求1所述的基于流模型的信息几何因果场景图像生成方法,其特征在于,所述获得的标注对象的场景图,标注的方法,包括:将图像中的对象通过标框进行标注,标框中包含对象的类别、大小以及位置,当多个对象发生重叠,标框中包含未发生重叠的部分。3.根据权利要求1所述的基于流模型的信息几何因果场景图像生成方法,其特征在于,所述采用PC模型基于物体编码得到部分有向无环图,包括:基于物体编码得到节点集合,对节点集合中的任意两个节点之间生成连边得到完全无向图,基于d

分离原则使得每一节点对获得分离集合,基于分离集合删除多余的边,如果每一节点对的共同邻居节点未包含在分离集合则构成V型结构,在V型结构中将节点对中的节点同时指向共同邻居节点,从而得到初始部分有向无环图,对初始部分有向无环图采用额外的规则判断部分连边的方向得到部分有向无环图。4.根据权利要求2所述的基于流模型的信息几何因果场景图像生成方法,其特征在于,所述对初始部分有向无环图采用额外的规则判断部分连边的方向得到部分有向无环图,所述额外的规则包括第一规则、第二规则和第三规则,其中:获得节点1、节点2、节点3和节点4,第一规则为:当节点1指向节点2,且节点1和节点3不相邻时,节点2和节点3的边定向为节点2指向节点3;第二规则为:当节点1指向节点2,节点2指向节点3时,将节点1和节点3的边定向为节点1指向节点3;第三规则为:当节点1为节点2的邻居节点,节点2指向节点3,节点1为节点4的邻居节点,节点4指向节点3,节点2和节点4不相邻时,将节点1和节点3的边定向为节点1指向节点3。
5.根据权利要求1所述的基于流模型的信息几何因果场景图像生成方法,其特征在于,所述将第一节点数据集输入第一单元得到第一预测隐编码,包括:S1:当第一节点数据输入子单元的耦合层时,第一节点数...

【专利技术属性】
技术研发人员:张晟源周圣喆杨光杨昌源李泽健孙凌云
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1