一种基于流模型的信息几何因果场景图像生成方法技术

技术编号：36787652 阅读：13 留言：0更新日期：2023-03-08 22:32

本发明专利技术公开了一种基于流模型的信息几何因果场景图像生成方法，通过损失函数的训练构建了节点对中的第一节点和第二节点数据集分别到最终隐编码集的函数关系，并基于到最终隐编码集的函数关系得到了第一节点指向第二节点的函数关系和第二节点指向第一节点的函数关系，基于上述两个函数关系采用IGCI模型分别得到上述两个指向关系的分数，将分数较低的作为第一节点与第二节点的最终指向关系，即因果关系；利用该方法通过引入最终隐编码集能够较为准确的获得节点集之间的函数关系，基于准确的函数关系能够使得IGCI模型能够准确获得节点间因果关系。点间因果关系。点间因果关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于流模型的信息几何因果场景图像生成方法

[0001]本专利技术属于计算机图像数据处理领域，具体涉及一种基于流模型的信息几何因果场景图像生成方法。

技术介绍

[0002]场景图生成任务起初又被称为视觉关系检测（Visual Relationship Detection），其主要的任务就是能够像人一样对图像内容实现更高层次的语义理解。场景图生成任务是在计算机视觉和自然语言处理两个学科交叉下的提出，并逐渐成为一个当前计算机视觉领域和自然语言处理相结合的热点研究课题。
[0003]场景图像生成任务是目前人工智能领域的重要研究课题之一，很多的研究学者不断探索和研究针对图像深度理解领域中的问题，为了加深对图像理解的研究，在目标识别、图像字幕、视觉问答以及自然语言处理等研究基础下，场景图生成任务逐渐成为一个当前计算机视觉领域和自然语言处理相结合的热点研究课题。场景图生成任务要求丰富而高级的语义理解，这对机器来说是一个巨大的挑战。
[0004]当从图像任务到其他任务中时，需要两种甚至多种不同形式的“信息”之间进行转换，而在两种不同形式的“信息”转换，需要一种范式或者结构来表达，场景图由于其简单而明确的结构对视觉任务和语言任务相结合有非常大的优势，而其中的关系用最基础的结构化三元组（<主体
‑
关系谓词
‑
客体>）来表示。通过三元组的表示可以用于图像素检索，目标识别，人体姿态估计，图像分割，图像字幕，视觉问答和视觉导航领域。
[0005]对场景...

【技术保护点】

【技术特征摘要】
1.一种基于流模型的信息几何因果场景图像生成方法，其特征在于，包括：S1：将获得的标注对象的场景图像通过VGG模型得到物体编码；采用PC模型基于物体编码得到部分有向无环图；S2：构建初始流模型，包括第一单元和第二单元，第一单元和第二单元均依次包括重叠层和耦合层，重叠层包括多层子单元，每个子单元依次包括耦合层和反转层，其中：提取部分有向无环图中需要确定因果关系的节点对数据集，节点对数据集构建训练样本集，节点对数据集包括第一节点数据集和第二节点数据集；将第一节点数据输入第一单元得到第一预测隐编码，将第一预测隐编码逆向通过第一单元得到第一节点预测数据；将第二节点数据输入第二单元得到第二预测隐编码，将第二预测隐编码逆向通过第二单元得到第二节点预测数据；S3：构建总损失函数，包括第一节点损失函数，第二节点损失函数和隐编码损失函数，基于第一节点预测数据采用对数似然函数构建第一节点损失函数，基于第二节点预测数据采用对数似然函数构建第二节点损失函数，第一预测隐编码和第二预测隐编码的差值构建隐编码损失函数；S4：基于训练样本集通过总损失函数训练初始流模型得到第一节点数据集与第二节点数据集之间的函数关系、最终预测隐编码集和最终流模型；基于第一节点数据集与第二节点数据集之间的函数关系和最终预测隐编码集采用IGCI模型得到第一节点数据集与第二节点数据集的因果关系，从而将部分有向无环图补全得到完整有向无环图，将完整有向无环图输入至带有因果关系判断的图像生成器得到生成图像。2.根据权利要求1所述的基于流模型的信息几何因果场景图像生成方法，其特征在于，所述获得的标注对象的场景图，标注的方法，包括：将图像中的对象通过标框进行标注，标框中包含对象的类别、大小以及位置，当多个对象发生重叠，标框中包含未发生重叠的部分。3.根据权利要求1所述的基于流模型的信息几何因果场景图像生成方法，其特征在于，所述采用PC模型基于物体编码得到部分有向无环图，包括：基于物体编码得到节点集合，对节点集合中的任意两个节点之间生成连边得到完全无向图，基于d
‑
分离原则使得每一节点对获得分离集合，基于分离集合删除多余的边，如果每一节点对的共同邻居节点未包含在分离集合则构成V型结构，在V型结构中将节点对中的节点同时指向共同邻居节点，从而得到初始部分有向无环图，对初始部分有向无环图采用额外的规则判断部分连边的方向得到部分有向无环图。4.根据权利要求2所述的基于流模型的信息几何因果场景图像生成方法，其特征在于，所述对初始部分有向无环图采用额外的规则判断部分连边的方向得到部分有向无环图，所述额外的规则包括第一规则、第二规则和第三规则，其中：获得节点1、节点2、节点3和节点4，第一规则为：当节点1指向节点2，且节点1和节点3不相邻时，节点2和节点3的边定向为节点2指向节点3；第二规则为：当节点1指向节点2，节点2指向节点3时，将节点1和节点3的边定向为节点1指向节点3；第三规则为：当节点1为节点2的邻居节点，节点2指向节点3，节点1为节点4的邻居节点，节点4指向节点3，节点2和节点4不相邻时，将节点1和节点3的边定向为节点1指向节点3。
5.根据权利要求1所述的基于流模型的信息几何因果场景图像生成方法，其特征在于，所述将第一节点数据集输入第一单元得到第一预测隐编码，包括：S1：当第一节点数据输入子单元的耦合层时，第一节点数...

【专利技术属性】
技术研发人员：张晟源，周圣喆，杨光，杨昌源，李泽健，孙凌云，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人