当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于图神经网络的图像生成方法技术

技术编号:36166439 阅读:24 留言:0更新日期:2022-12-31 20:16
本发明专利技术公开了一种基于图神经网络的图像生成方法,包括通过图像特征节点集合和对应的场景拓扑图构建超图,在超图上构建一个图神经网络来同时学习场景拓扑图中的语义特征以及图像的潜在特征;通过四种在图神经网络上的消息传递方式来模拟真实场景中的物体交互,将基于全局消息传递方式和局部消息传递方式更新得到的图像特征集合依次输入全连接层和归一化指数函数得到生成图像编码;基于训练样本集对训练网络模型进行训练,通过生成图像编码和真实图像编码采用损失函数训练训练网络模型得到图神经网络模型;该方法能够高效的生成具有较高视觉质量和较为正确物体之间关系的图像。像。像。

【技术实现步骤摘要】
一种基于图神经网络的图像生成方法


[0001]本专利技术属于图像处理
,具体涉及一种基于图神经网络的图像生成方法。

技术介绍

[0002]近年来,生成对抗神经网络(GAN,Generative Adversarial Networks )在生成逼真图像领域取得了巨大的进展,其从像素级别图像中创造人类出无法分辨出真假的、内容丰富的高质量图像。此外,带有条件的图像生成方法能够使得生成的结果更加可控、更加满足用户的需求,例如:基于文字描述生成图像、基于骨骼关键点生成人体图像等。
[0003]基于场景拓扑图生成图像的方法中,场景拓扑图内的每个节点都被赋予一种特定的语义,节点之间用边的连接代表语义之间的关系,从而可以描述出一张图像的语义内容和布局规划,其与人类的思维导图形式相似。因此,场景拓扑图生成图像的技术在人和人工智能合作绘画创作领域有着重要应用。
[0004]现有的基于场景拓扑图生成图像的方法涉及两个阶段。在第一阶段,物体的语义特征由图神经网络学习得到,语义特征被用来确定物体的语义分割图,其中包括物体的坐标边界以及物体大致的形状。在第二阶段,现有方法利用基于语义分割图生成图像的方法来生成最终的图像。基于两阶段的方法的关键挑战是需要通过图神经网络学习到包含物体之间相互作用的语义特征。
[0005]当图神经网络模型未能捕捉到物体的相互作用或未将相互作用的信息纳入到语义特征中时,那得到的语义特征将只包含语义的类别信息。在这种情况下,各个物体是独立生成的,最后的图像是不真实的。
[0006]另一方面,现有的图像生成方法忽略了物体在图像生成阶段的相互作用,即物体在这一阶段是独立和平行生成的,没有进一步的消息传递,这样会导致生成的图像中物体失真。因此基于两阶段的方法,其对物体间的相互作用信息的学习只存在于语义特征的学习阶段,给语义特征的学习带来了严重负担。
[0007]为了更加精准捕捉物体之间的交互,需要在语义特征学习阶段和图像生成阶段均考虑物体之间的关系。因此亟需设计一种图像生成方法能够准确获得物体之间的关系高效生成具有较高视觉质量的图像。

技术实现思路

[0008]本专利技术提供了一种基于图神经网络的图像生成方法,该方法能够高效的生成具有较高视觉质量和较为正确物体之间关系的图像。
[0009]一种基于图神经网络的图像生成方法,包括:(1)获得多张真实图像,基于所述真实图像中的物体构建场景拓扑图,将真实图像输入VQGAN系统得到真实图像编码和图像特征节点集合,通过图像特征节点集合和对应的场景拓扑图构建超图,多个超图构建训练样本集;(2)构建训练网络模型,所述训练网络模型包括消息传递函数、注意力机制单元、
全连接层和归一化指数函数,其中:场景拓扑图上的语义特征消息传递方式:在场景拓扑图中,通过消息传递函数将场景拓扑图节点的每个邻居节点的语义特征和连边特征进行融合得到第一邻居节点消息,将每个第一邻居节点消息通过注意力机制单元进行聚合,将聚合结果作为更新的场景拓扑图节点语义特征;全局消息传递方式:当图像特征节点的邻居节点为场景拓扑图节点时,采用回归网络方法基于场景拓扑图的每个节点构建矩形框,矩形框内为物体的图像特征节点,场景拓扑图的每个节点指向对应矩形框,通过消息传递函数将更新的场景拓扑图节点语义特征与对应的矩形框连接的全局连边特征进行融合,将融合结果通过注意力机制得到的聚合特征作为采用全局消息传递方式更新的图像特征;局部消息传递方式:当图像特征节点的邻居节点在当前矩形框内或其他矩形框内时,通过消息传递函数将矩形框内图像特征节点的邻居节点的图像特征和相应连边特征进行融合得到第二邻居节点信息,将每个第二邻居节点信息通过注意力机制单元进行聚合,将聚合结果作为采用局部消息传递方式更新的图像特征;将基于全局消息传递方式和局部消息传递方式更新得到的图像特征集合依次输入全连接层和归一化指数函数得到生成图像编码;(3)基于训练样本集对训练网络模型进行训练,通过生成图像编码和真实图像编码采用损失函数训练训练网络模型得到图神经网络模型;(4)应用时,将场景拓扑图输入至图神经网络模型中得到生成图像编码,将生成图像编码输入至VQGAN系统的解码器生成图像。
[0010]将真实图像输入VQGAN系统得到真实图像编码,包括:先将真实图像通过VQGAN系统的编码器得到初始潜在向量组合,基于距离最近原理将初始潜在向量组合中的初始潜在向量与向量字典进行比对得到潜在向量组合,潜在向量组合的下标为真实图像编码,其中:所述潜在向量为:其中, 为初始潜在向量组合, q(﹒)为距离最近函数, z
k
为向量字典中的第k个向量,n为向量的维度,h和w分别为潜在向量的高度和宽度。
[0011]所述基于所述真实图像中的物体构建的场景拓扑图,场景拓扑图节点表示真实图像中的物体,连边表示物体之间的关系,场景拓扑图由元祖组成,其中:场景拓扑图节点的集合O为:其中, o
i
为第i个场景拓扑图节点,N为场景拓扑图节点的个数, 为一组物体类别;场景拓扑图连边的集合,为一组关系类别,每条边表示为,为的第个邻居节点,,为由第i个场景拓扑图节点指向第
ꢀꢀ
个场景拓扑图节点的连边。
[0012]将场景拓扑图输入嵌入层网络中得到场景拓扑图节点的语义特征和连边特征。
[0013]通过消息传递函数将场景拓扑图节点的每个邻居节点语义特征和连边特征进行融合得到第一邻居节点消息
ꢀꢀ
为:其中, 为第个邻居节点语义特征,为连边特征,为场景拓扑图内信息传递参数矩阵,,D1为邻居节点的语义特征的维度,D2为连边特征的维度。
[0014]通过融合结果更新图像特征节点对应的图像特征
ꢀꢀ
为:其中, 为节点特征v
i
的邻居节点集合, 为归一化后的节点到节点 的注意力系数,W1和W2分别为参数矩阵,GeLU为激活函数。
[0015]基于全局消息传递方式更新得到的图像特征
ꢀꢀ
为:为:其中,为第i已更新的语义节点特征传递给第j个图像节点特征的消息, r
g
为第g个全局连边类型,为全局连边类型的参数矩阵,为全局连边特征,为第i个已更新的语义节点特征到图像节点特征
ꢀꢀ
的注意力系数,W1和W2分别为参数矩阵,为图像节点特征的语义特征邻居节点集合。
[0016]将基于全局消息传递方式和局部消息传递方式更新得到的图像特征依次进行前馈神经网络和规范化操作得到最终的图像特征;将基于场景拓扑图上的语义特征消息传递方式更新得到的场景拓扑图节点语义特征依次进行前馈神经网络和规范化操作得到最终的语义特征消息。
[0017]当图像特征节点的邻居节点在当前矩形框内时,矩形框内的每个图像特征节点指向其他图像特征节点,这些节点之间通过特定的局部边r
l
进行连接,l表示局部边的索引,为第一局部连边特征,为图像特征节点的在同一矩形框内的邻居节点集合,通过其消息传递函数、注意力机制得到更新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的图像生成方法,其特征在于,包括:(1)获得多张真实图像,基于所述真实图像中的物体构建场景拓扑图,将真实图像输入VQGAN系统得到真实图像编码和图像特征节点集合,通过图像特征节点集合和对应的场景拓扑图构建超图,多个超图构建训练样本集;(2)构建训练网络模型,所述训练网络模型包括消息传递函数、注意力机制单元、全连接层和归一化指数函数,其中:场景拓扑图上的语义特征消息传递方式:在场景拓扑图中,通过消息传递函数将场景拓扑图节点的每个邻居节点的语义特征和连边特征进行融合得到第一邻居节点消息,将每个第一邻居节点消息通过注意力机制单元进行聚合,将聚合结果作为更新的场景拓扑图节点语义特征;全局消息传递方式:当图像特征节点的邻居节点为场景拓扑图节点时,采用回归网络方法基于场景拓扑图的每个节点构建矩形框,矩形框内为物体的图像特征节点,场景拓扑图的每个节点指向对应矩形框,通过消息传递函数将更新的场景拓扑图节点语义特征与对应的矩形框连接的全局连边特征进行融合,将融合结果通过注意力机制得到的聚合特征作为采用全局消息传递方式更新的图像特征;局部消息传递方式:当图像特征节点的邻居节点在当前矩形框内或其他矩形框内时,通过消息传递函数将矩形框内图像特征节点的邻居节点的图像特征和相应连边特征进行融合得到第二邻居节点信息,将每个第二邻居节点信息通过注意力机制单元进行聚合,将聚合结果作为采用局部消息传递方式更新的图像特征;将基于全局消息传递方式和局部消息传递方式更新得到的图像特征集合依次输入全连接层和归一化指数函数得到生成图像编码;(3)基于训练样本集对训练网络模型进行训练,通过生成图像编码和真实图像编码采用损失函数训练训练网络模型得到图神经网络模型;(4)应用时,将场景拓扑图输入至图神经网络模型中得到生成图像编码,将生成图像编码输入至VQGAN系统的解码器生成图像。2.根据权利要求1所述的基于图神经网络的图像生成方法,其特征在于,将真实图像输入VQGAN系统得到真实图像编码,包括:先将真实图像通过VQGAN系统的编码器得到初始潜在向量组合,基于距离最近原理将初始潜在向量组合中的初始潜在向量与向量字典进行比对得到潜在向量组合,潜在向量组合的下标为真实图像编码,其中:所述潜在向量为:其中, 为初始潜在向量组合, q(﹒)为距离最近函数, z
k
为向量字典中的第k个向量,n为向量的维度,h和w分别为潜在向量的高度和宽度。3.根据权利要求1所述的基于图神经网络的图像生成方法,其特征在于,所述基于所述真实图像中的物体构建的场景拓扑图,场景拓扑图节点表示真实图像中的物体,连边表示物体之间的关系,场景拓扑图由元祖组成,其中:场景拓扑图节点的集合O为:
其中, o
i
为第i个场景拓扑图节点,N为场景拓扑图节点的个数, 为一组物体类别;场景拓扑图连边的集合,为一组关系类别,每条边表示为,为的第个邻居节点,,为由第i个场景拓扑图节点指向第
ꢀꢀ
个场景拓扑图节点的连边。4.根据权利要求1所述的基于图神经网络的图像生成方法,其特征在于,将场景拓扑图输入嵌入层网络中得到场景拓扑图节点的语义特征和连边特征。5.根据权利要求3所述的基于图神经网络的图像生成方法,其特征在于,通过消息传递函数将场景拓扑图节点的每个邻居...

【专利技术属性】
技术研发人员:陈培张杨康李泽健孙凌云
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1