本发明专利技术提供一种基于子图划分和子图间池化的图神经网络技术进行图分类的方法和装置,其中图分类的方法流程包括:基于节点度大小选取子图扩展中心;依据基于广度优先遍历的方式,拓展得到子图;训练相应的图卷积网络,从各子图邻接矩阵和特征矩阵中得到各子图包含节点特征和邻接关系信息的子图内特征向量;以子图内特征向量模长作为度量,进行最大池化,选取部分子图内特征向量作为GAT输入;训练相应的GAT,将最大池化所选取的子图内特征向量作为结点输入,得到蕴含子图间信息的子图特征向量;利用分类器对子图特征向量进行分类,得到子图类别,并按照最大投票原则,确定图类别。本发明专利技术技术方案的分类原理具有良好的可解释性以及良好的分类效果。
【技术实现步骤摘要】
图分类方法和装置
本专利技术涉及机器学习技术,尤其涉及一种基于子图划分和子图间池化的图神经网络技术进行的图分类方法和装置。
技术介绍
在机器学习(MachineLearning,ML)
中,为了使机器理解某些专业领域的知识及实体的很多不规则的数据结构,常利用图论(GraphTheory)中图(Graph)的形式对相关知识和/或实体进行描述,或称拓扑结构,如社交网络、知识图谱、化学分子结构等等,在化学领域中,特别可用图结构描述化合物的组成形式。与处理对象为欧式空间的数据相比,用图表述某些专业领域的知识及实体并用于分析其特点就是节点关系以及节点携带特征信息是结构不规则的。由于图结构并非规律的数据结构,难以通过适用于欧什空间数据的CNN、RNN等处理图像和语言的神经网络加以特征提取,现有技术中,图分类工具,可以通过图卷积网络(GCN)对某一领域中的图进行学习,并能用向量的形式来对图进行描绘,从而使得图分类的工作可以由现有的分类器(Classifier)来学习和完成。采用现有技术,对图的分类缺乏良好的可解释性,缺失考虑了某些领域得到的图结构中,存在图特征由特定子图结构决定的情况。例如:在化学领域中,化合物是否具有毒性,常由其中是否含有特定的原子团决定。
技术实现思路
本专利技术提供一种基于子图划分和子图间池化的图神经网络技术进行的图分类的方法和装置,提高了对专业领域知识的图表示进行分类的准确率,并具有良好的可解释性。本专利技术各个实施例中提供的图分类方法,均基于一个通过预处理实现的前提:对于一个给定的来自某专业领域的图G,一个方面,可以用邻接矩阵A∈RN×N表示图G中N个节点的连接关系,对于一个图的邻接矩阵A其内部元素aij的取值规则为:当存在边<i,j>时aij为1,否则为0;另一个方面,对于G中的每一个具体节点v,都有一个行向量用于描述该节点在该专业领域中所具备的f个特性(Feature)信息,形如:一个图中所有行向量按照N个节点在描述节点特征的行向量组成矩阵X∈RN×f,其形如:形如Rf的向量或者矩阵其内部元素属于实数域,角标为矩阵的行列数。本专利技术中,上述描述图中一个节点特性信息的行向量,如称为该节点v的特征向量,描述一个图中各个节点特性信息的矩阵,如X,称为该图的特征矩阵,本文中特征向量或特征矩阵如非特别说明均依从本定义,这些特征向量或特征矩阵实质上携带有具体的待提取和分类处理的特征信息,即不是指数学意义上的特征矩阵,而是指描述图中各节点特征信息的向量或者矩阵。在本专利技术面对的技术问题中,图G的类别受到图G中若干具体子结构及节点特征信息的影响,在本专利技术的各个实施例中使用本专利技术各个实施例提供的方法和装置通过子图划分和子图间池化的图神经网络技术来对图G进行分类。基于上述前提和技术问题,本专利技术的第一方面各个实施例中,提供了一种基于子图划分和子图间池化的图神经网络技术进行的图分类方法,作为响应的,对某个图进行分类时实施以下步骤S100至S500:S100,根据一个子图划分方法和所述图的结构,将所述图划分为第一子图集,输出第一子图集中各个子图的邻接矩阵和第一特征矩阵;所述第一子图集中各个子图的尺寸相同,并且所述图中任一节点都存在于所述第一子图集中的至少一个子图内。本专利技术各个实施例中,在步骤S100中的子图划分方法,是一种完全覆盖的划分,即,在对母图G实施一个子图划分方法划分后获得多个子图,所获得的全部子图的集合为第一子图集,并且满足:每张子图均为图G的真子图,全部子图的节点集的并集等于图G的节点集,全部子图的边集的并集等于图G的边集。优选的在一些强调节点连通关系的实施例中,如化学分子式、树形知识图谱等,第一子图集中的子图均为连通图。本专利技术各个实施例中,第一特征矩阵是根据其节点的特征向量组成的原始的特征矩阵,其携带了直接的节点特征信息。S200,根据第一子图集中各个子图的邻接矩阵和第一特征矩阵,通过子图图卷积网络分别将其特征信息提取为其第二特征矩阵。本专利技术一些实施例中,根据第一子图集中的子图数量,提供并训练数量相同的子图图卷积网络分别提取各个子图的第二特征矩阵,每个子图的第二特征矩阵实际包含了具有一定节点邻接关系的子图内节点整体呈现的特征信息。S300,根据一个子图选取方法从第一子图集中选取若干子图至第二子图集,并对第二子图集进行子图间池化后获得第二子图集中各个子图的第三特征矩阵。本专利技术的各个实施例中,第二子图集是第一子图集的一个子集,满足第二子图集总各个子图的第二特征矩阵更能体现母图的分类特征,或者其他更感兴趣的特征。S400,根据所述图结构以第二子图集中每个子图为一个节点的组成一个新图,新图中每个节点的第四特征矩阵由其对应子图各节点的第三特征矩阵组成。新图实际上体现了第二子图集中各个子图之间的相互邻接关系,以便将子图的各节点的第三特征矩阵,整体组成新图节点的特征矩阵,以便在下一步的卷积处理中更关注子图间的特征相关性。S500,根据新图中每个节点的第四特征矩阵通过分类器回归获得新图每个节点的分类,根据每个节点的分类确定所述图的分类结果。新图每个节点第四特征矩阵体现了原始母图基于一种子图划分的分布式特征表述,经过分类器中全连接层的分类操作,将这些特征重新映射到样本标记空间,以便对各个子图的母图做出基于子图类别的分类。在一些实施例中,步骤S100中子图划分方法为:基于图中每个节点的节点度大小选取各个子图的扩展中心;依据基于广度优先遍历(BFS)的方式,按照指定尺寸以选取的扩展中心为起始节点,拓展得到子图。此类实施例中,步骤S100中将输入的图G分割为K个尺寸为N的子图的子图划分方法为:取图G中各个节点的度作为比较对象,从大到小对图G中的各个节点进行排序;选取排序中的前K个点作为生成每张子图的中心;以每个中心为一次广度优先遍历的起点进行图遍历,当访问到的节点数目达到尺寸N时,即第N个节点时,停止本次遍历,并将本次遍历所有访问到的节点和节点连接关系输出为一张子图。通过调整K和N,至少可以获得一种满足S100第一子图集要求的划分方法,本领域技术人员也可以使用深度优先遍历等任何其它提取方法,从图G中提取全部第一子图集中的子图。在一些实施例中,步骤S300中从第一子图集中选取p张子图至第二子图集的子图选取方法为:将所述第一子图集中K张子图按照其第二特征矩阵的模的大小,从大到小进行排序,选取模最大的前p张子图组成所述第二子图集。此类实施例中,训练子图相应的图卷积网络(GCN),即子图图卷积网络,在S200中将各子图邻接矩阵和特征矩阵输入各自GCN得到各子图包含节点特征和邻接关系信息的子图内特征向量;以子图内特征向量模长作为度量,进行最大池化(Max-pooling)。一些实施例中,步骤S300中的池化为最大池化,步骤S400中所述新图中每个节点的第四特征矩阵为利用所述新图的邻接矩阵进行图卷积网络处理后的第四特征矩阵。优选的,图卷积网络为图注意力网络(GAT)。在一些池化后通过多个卷积层继续提取母图整体特征信息的实施例中,选取部分子图内特征向量作为图本文档来自技高网...
【技术保护点】
1.一种基于子图划分和子图间池化的图分类方法,其特征在于,对于一个图分类请求的响应过程包括以下步骤:/nS100,根据一个子图划分方法和所述图分类请求中图的结构,将该图划分为第一子图集,输出第一子图集中各个子图的邻接矩阵和第一特征矩阵;所述第一子图集中各个子图的尺寸相同,并且所述图中任一节点都存在于所述第一子图集中的至少一个子图内;/nS200,根据第一子图集中各个子图的邻接矩阵和第一特征矩阵,通过子图图卷积网络分别将其特征信息提取为其第二特征矩阵;/nS300,根据一个子图选取方法从第一子图集中选取若干子图至第二子图集,并对第二子图集进行子图间池化后获得第二子图集中各个子图的第三特征矩阵;/nS400,根据所述图结构以第二子图集中每个子图为一个节点的组成一个新图,新图中每个节点的第四特征矩阵由其对应子图各节点的第三特征矩阵组成;/nS500,根据新图中每个节点的第四特征矩阵通过分类器回归获得新图每个节点的分类,根据每个节点的分类确定所述图的分类结果。/n
【技术特征摘要】
1.一种基于子图划分和子图间池化的图分类方法,其特征在于,对于一个图分类请求的响应过程包括以下步骤:
S100,根据一个子图划分方法和所述图分类请求中图的结构,将该图划分为第一子图集,输出第一子图集中各个子图的邻接矩阵和第一特征矩阵;所述第一子图集中各个子图的尺寸相同,并且所述图中任一节点都存在于所述第一子图集中的至少一个子图内;
S200,根据第一子图集中各个子图的邻接矩阵和第一特征矩阵,通过子图图卷积网络分别将其特征信息提取为其第二特征矩阵;
S300,根据一个子图选取方法从第一子图集中选取若干子图至第二子图集,并对第二子图集进行子图间池化后获得第二子图集中各个子图的第三特征矩阵;
S400,根据所述图结构以第二子图集中每个子图为一个节点的组成一个新图,新图中每个节点的第四特征矩阵由其对应子图各节点的第三特征矩阵组成;
S500,根据新图中每个节点的第四特征矩阵通过分类器回归获得新图每个节点的分类,根据每个节点的分类确定所述图的分类结果。
2.根据权利要求1所述的图分类方法,其特征在于,所述步骤S100中将输入的图G分割为K个尺寸为N的子图的所述子图划分方法为:取图G中各个节点的度作为比较对象,从大到小对图G中的各个节点进行排序;选取排序中的前K个点作为生成每张子图的中心;以每个中心为一次广度优先遍历的起点进行图遍历,当访问到的节点数目达到尺寸N时,停止本次遍历,并将本次遍历所有访问到的节点和节点连接关系输出为一张子图。
3.根据权利要求2所述的图分类方法,其特征在于,所述步骤S300中从第一子图集中选取p张子图至第二子图集的所述子图选取方法为:将所述第一子图集中K张子图按照其第二特征矩阵的模的大小,从大到小进行排序,选取模最大的前p张子图组成所述第二子图集。
...
【专利技术属性】
技术研发人员:刘明生,张诣,彭浩,温洪念,许爱雪,马伯元,张文浩,姜春阳,
申请(专利权)人:石家庄铁路职业技术学院,
类型:发明
国别省市:河北;13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。