当前位置: 首页 > 专利查询>清华大学专利>正文

图数据增强方法及装置制造方法及图纸

技术编号:37569518 阅读:25 留言:0更新日期:2023-05-15 07:48
本申请公开了一种图数据增强方法及装置,其中,方法包括:将图数据中的图补全为完全图,并基于预设顶点互信息算法在图数据中计算顶点复杂度、顶点间互信息以及图结构复杂度,从而根据原图的同质异质结构特点确定图结构增强方法,并使用预设贪心算法对原图结构增加或删除边,得到结构增强后的图,以实现图结构复杂度和图结构同质性的最大化;采用预设图神经网络算法使用结构增强后的图以及已有的顶点特征信息,对图顶点特征进行平滑操作,并使用平滑后的顶点特征使用全连接神经网络预测顶点预测类别。由此,解决了相关技术中无法得到顶点特征的最佳表示,导致系统内图结构难以准确描述系统,降低了系统的精准性和鲁棒性等问题。题。题。

【技术实现步骤摘要】
图数据增强方法及装置


[0001]本申请涉及图数据增强
,特别涉及一种图数据增强方法及装置。

技术介绍

[0002]相关技术中,基于固定图结构的基础上,通过相邻或者高阶邻居直接特征做特征平滑、信息传递或信息聚合来对顶点特征进行平滑优化,以增加顶点分类任务的预测效果。
[0003]然而,相关技术中仅通过相邻或者高阶邻居直接特征做特征平滑、信息传递或信息聚合来对顶点特征进行平滑优化,无法得到顶点特征的最佳表示,导致系统内图结构难以准确描述系统,降低了系统的精准性和鲁棒性,亟待解决。

技术实现思路

[0004]本申请是基于专利技术人对以下问题和认识作出的:
[0005]图数据在现实世界系统中是一种重要的关联结构,系统内的对象实体之间的关联关系可以用图数据来表示,例如,社交网络的用户间关联、大脑脑区之间的功能联系。
[0006]同时基于图数据的任务也是十分广泛,包括顶点分类、链路预测、顶点聚类、图分类,如果数据中的图结构以及顶点特征准确,这些任务的准确性会有较大提升,但是现实世界系统的图可能是有偏的、不完备的,而基于这种有偏的、不完备的图无法准确描述系统内各个对象的关联关系,因此会造成下游顶点分类、链路预测等任务无法达到应有的效果,如何在已有图结构和顶点特征基础上得到下游顶点分类任务准确的预测是一个有挑战性的问题。
[0007]本申请提供一种图数据增强方法及装置,以解决相关技术中仅通过相邻或者高阶邻居直接特征做特征平滑、信息传递或信息聚合来对顶点特征进行平滑优化,无法得到顶点特征的最佳表示,导致系统内图结构难以准确描述系统,降低了系统的精准性和鲁棒性等问题。
[0008]本申请第一方面实施例提供一种图数据增强方法,包括以下步骤:将图数据中的图补全为完全图,并基于预设顶点互信息算法在所述图数据中计算顶点复杂度、顶点间互信息以及图结构复杂度;基于所述完全图、所述顶点复杂度、所述顶点间互信息以及所述图结构复杂度,根据原图的同质异质结构特点确定图结构增强方法,并使用预设贪心算法对原图结构增加或删除边,得到结构增强后的图,以实现图结构复杂度和图结构同质性的最大化;采用预设图神经网络算法使用所述结构增强后的图以及已有的顶点特征信息,对图顶点特征进行平滑操作,并使用平滑后的顶点特征使用全连接神经网络预测顶点预测类别。
[0009]可选地,在本申请的一个实施例中,所述将图数据中的图补全为完全图,并基于预设顶点互信息算法在所述图数据中计算顶点复杂度、顶点间互信息以及图结构复杂度,包括:在所述原图中,将未连接的顶点对连接另一种类型的边,将所述原图补全为包含两种类型的边的所述完全图;利用所述图数据的顶点度数计算所述顶点复杂度,并根据顶点间的
连接信息计算所述顶点间互信息,且根据所述顶点复杂度和所述顶点间互信息计算所述图结构复杂度。
[0010]可选地,在本申请的一个实施例中,所述根据原图的同质异质结构特点确定图结构增强方法,并使用预设贪心算法对原图结构增加或删除边,得到结构增强后的图,以实现图结构复杂度和图结构同质性的最大化,包括:利用图的顶点的标签信息与所述原图的边信息计算同集群边和不同集群边的数量,并根据所述数量计算边的同质率,并根据所述同质率的大小确定图的类型为同质图或异质图,确定所述同质异质结构特点;利用所述所述贪心算法对所述原图结构进行增强,其中,若图为所述同质图,则把未连接点对的互信息排序,贪心增加互信息较大的边,若图为所述异质图,则把连接点对的互信息排序,贪心增加互信息较小的边。
[0011]可选地,在本申请的一个实施例中,所述采用预设图神经网络算法使用所述结构增强后的图以及已有的顶点特征信息,对图顶点特征进行平滑操作,并使用平滑后的顶点特征使用全连接神经网络预测顶点预测类别,包括:使用图神经网络将所述图顶点特征进行平滑,生成经过神经网络的平滑后的顶点特征;使用全连接神经网络,将所述顶点特征作为输入,得到所述顶点预测类别。
[0012]本申请第二方面实施例提供一种图数据增强装置,包括:计算模块,用于将图数据中的图补全为完全图,并基于预设顶点互信息算法在所述图数据中计算顶点复杂度、顶点间互信息以及图结构复杂度;确定模块,用于基于所述完全图、所述顶点复杂度、所述顶点间互信息以及所述图结构复杂度,根据原图的同质异质结构特点确定图结构增强方法,并使用预设贪心算法对原图结构增加或删除边,得到结构增强后的图,以实现图结构复杂度和图结构同质性的最大化;处理模块,用于采用预设图神经网络算法使用所述结构增强后的图以及已有的顶点特征信息,对图顶点特征进行平滑操作,并使用平滑后的顶点特征使用全连接神经网络预测顶点预测类别。
[0013]可选地,在本申请的一个实施例中,所述计算模块包括:连接单元,用于在所述原图中,将未连接的顶点对连接另一种类型的边,将所述原图补全为包含两种类型的边的所述完全图;计算单元,用于利用所述图数据的顶点度数计算所述顶点复杂度,并根据顶点间的连接信息计算所述顶点间互信息,且根据所述顶点复杂度和所述顶点间互信息计算所述图结构复杂度。
[0014]可选地,在本申请的一个实施例中,所述确定模块包括:确定单元,用于利用图的顶点的标签信息与所述原图的边信息计算同集群边和不同集群边的数量,并根据所述数量计算边的同质率,并根据所述同质率的大小确定图的类型为同质图或异质图,确定所述同质异质结构特点;增强单元,用于利用所述所述贪心算法对所述原图结构进行增强,其中,若图为所述同质图,则把未连接点对的互信息排序,贪心增加互信息较大的边,若图为所述异质图,则把连接点对的互信息排序,贪心增加互信息较小的边。
[0015]可选地,在本申请的一个实施例中,所述处理模块包括:生成单元,用于使用图神经网络将所述图顶点特征进行平滑,生成经过神经网络的平滑后的顶点特征;获取单元,用于使用全连接神经网络,将所述顶点特征作为输入,得到所述顶点预测类别。
[0016]本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述
实施例所述的图数据增强方法。
[0017]本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,该程序被处理器执行时实现如上的图数据增强方法。
[0018]本申请实施例可以将图数据中的图补全为完全图,并基于顶点互信息算法在图数据中计算顶点复杂度、顶点间互信息以及图结构复杂度,从而根据原图的同质异质结构特点确定图结构增强方法,并使用贪心算法对原图结构增加或删除边,得到结构增强后的图,以实现图结构复杂度和图结构同质性的最大化,并且采用图神经网络算法使用结构增强后的图以及已有的顶点特征信息,对图顶点特征进行平滑操作,并使用平滑后的顶点特征使用全连接神经网络预测顶点预测类别,从而可以得到顶点特征的最佳表示,并且系统内图结构可以准确描述系统,有效的提升了系统的精准性和鲁棒性。由此,解决了相关技术中仅通过相邻或者高阶邻居直接本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图数据增强方法,其特征在于,包括以下步骤:将图数据中的图补全为完全图,并基于预设顶点互信息算法在所述图数据中计算顶点复杂度、顶点间互信息以及图结构复杂度;基于所述完全图、所述顶点复杂度、所述顶点间互信息以及所述图结构复杂度,根据原图的同质异质结构特点确定图结构增强方法,并使用预设贪心算法对原图结构增加或删除边,得到结构增强后的图,以实现图结构复杂度和图结构同质性的最大化;以及采用预设图神经网络算法使用所述结构增强后的图以及已有的顶点特征信息,对图顶点特征进行平滑操作,并使用平滑后的顶点特征使用全连接神经网络预测顶点预测类别。2.根据权利要求1所述的方法,其特征在于,所述将图数据中的图补全为完全图,并基于预设顶点互信息算法在所述图数据中计算顶点复杂度、顶点间互信息以及图结构复杂度,包括:在所述原图中,将未连接的顶点对连接另一种类型的边,将所述原图补全为包含两种类型的边的所述完全图;利用所述图数据的顶点度数计算所述顶点复杂度,并根据顶点间的连接信息计算所述顶点间互信息,且根据所述顶点复杂度和所述顶点间互信息计算所述图结构复杂度。3.根据权利要求1所述的方法,其特征在于,所述根据原图的同质异质结构特点确定图结构增强方法,并使用预设贪心算法对原图结构增加或删除边,得到结构增强后的图,以实现图结构复杂度和图结构同质性的最大化,包括:利用图的顶点的标签信息与所述原图的边信息计算同集群边和不同集群边的数量,并根据所述数量计算边的同质率,并根据所述同质率的大小确定图的类型为同质图或异质图,确定所述同质异质结构特点;利用所述所述贪心算法对所述原图结构进行增强,其中,若图为所述同质图,则把未连接点对的互信息排序,贪心增加互信息较大的边,若图为所述异质图,则把连接点对的互信息排序,贪心增加互信息较小的边。4.根据权利要求1所述的方法,其特征在于,所述采用预设图神经网络算法使用所述结构增强后的图以及已有的顶点特征信息,对图顶点特征进行平滑操作,并使用平滑后的顶点特征使用全连接神经网络预测顶点预测类别,包括:使用图神经网络将所述图顶点特征进行平滑,生成经过神经网络的平滑后的顶点特征;使用全连接神经网络,将所述顶点特征作为输入,得到所述顶点预测类别。5.一种图数据增强装置,其特征在于,包括:计算模块,用于将图数据...

【专利技术属性】
技术研发人员:高跃颜杰龙
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1