一种基于子结构组装网络的图分类方法和系统技术方案

技术编号:21157987 阅读:26 留言:0更新日期:2019-05-22 07:46
本发明专利技术公开了一种基于子结构组装网络的图分类方法和系统,所述子结构组装网络包括:子结构组装单元层、池化层和全连接层;子结构组装单元层将任意大小的图结构作为输入,在每个节点上对与其相连的边通过概率方法做渐进边选择,从而组成以每个节点为中心的判别局部子结构,多个子结构组装单元层级联最终组装成较大的判别性子结构;将最后一个子结构组装单元层得到的以每个节点为中心节点的各种子结构通过池化层聚合成固定长度的特征向量以便于后续的分类;全连接层对池化层的输出进行预测得到类标签。本发明专利技术充分结合了模式搜索和深度学习提取判别性子结构,能有效减少分类误差。

A Graph Classification Method and System Based on Substructure Assembly Network

The invention discloses a graph classification method and system based on sub-structure assembly network, which includes: sub-structure assembly unit layer, pooling layer and full connection layer; sub-structure assembly unit layer takes arbitrary size graph structure as input, and makes progressive edge selection on the edges connected with it by probability method on each node, thus forming a center of each node. Centralized discriminant local substructures, multiple substructure assembly units are cascaded to form larger discriminant substructures; various substructures with each node as the center node obtained from the last substructure assembly unit layer are aggregated into fixed-length feature vectors through the pooling layer to facilitate subsequent classification; and the output of the pooling layer is predicted by the full connection layer to obtain the class labels. The method fully combines pattern search and deep learning to extract discriminant substructures, and can effectively reduce classification errors.

【技术实现步骤摘要】
一种基于子结构组装网络的图分类方法和系统
本专利技术涉及图数据挖掘
,具体而言涉及一种基于子结构组装网络的图分类方法和系统。
技术介绍
图结构的数据可以描述事物之间复杂的相互关系,现实世界中如生物蛋白质-蛋白质相互作用网络、化合物、社交网络等这些图数据的激增,导致了图挖掘研究的兴起。图分类在生物化学、计算机科学、社交网络等诸多领域都有重要的研究和应用价值。图分类是社会网络和生物数据分析的重要工具,旨在从训练数据中训练分类器以预测测试数据的类标签,其中训练和测试样本均为图结构。例如,在蛋白质或酶的数据中,我们可以发现疾病或有缺陷的化合物的表象;在生物学中,用图结构表示蛋白质结构,其中每个顶点代表氨基酸,每条边代表该边所连接的不同氨基酸之间的接触残基,通过实验观察,对变异的蛋白质结构图进行分析,提取病变蛋白质的结构特征并构建分类模型,可用于预测未知蛋白质的病变属性;在社交网络中,我们可以根据其内部结构特征对社会群体进行分类或预测协作关系等。现有的图分类方法主要分为两类:核方法和深度学习。典型的核方法主要WL子树核、随机游走核和最短路径核等,这些方法在考虑可扩展性时通常涉及高计算复杂性,同时相似度矩阵计算和分类学习是两个独立的步骤,因此训练阶段提取的特征图不能优化后续分类任务(Shortest-pathkernelsongraphs.BorgwardtandKriegel)。而深度学习是端到端的,特征提取和分类一步到位,能够从原始数据自动提取特征,现有的基于深度学习的图分类方法分为两大类:谱方法和空间方法。谱方法主要从谱图理论中得到启发,谱方法的一些变体试图解决谱卷积过程中的一些问题(例如降低计算复杂度)。由于拉普拉斯矩阵的分解需求,谱方法经常承担昂贵的计算负担,同时该方法很难学习局部子结构特征限制了分类性能(Spectralnetworksandlocallyconnectednetworksongraphs.Brunaetal.)。空间方法通常利用相邻顶点来定义局部空间结构,然后对这些结构化的子图进行深度编码,或根据空间边的连接对局部邻域排序或聚合以适应局部卷积滤波。NiepertM等人提出PSCN(Learningconvolutionalneuralnetworksforgraphs.Niepertetal.),这种方法能够自动学习局部子结构特征,提高了分类精度,但该技术的性能在很大程度上取决于第一步中的节点对齐结果,而节点对齐问题是NP难的,难以保证有效的节点对齐。
技术实现思路
本专利技术目的在于提供一种基于子结构组装网络的图分类方法和系统,不需要节点对齐步骤,利用类似RNN(RecurrentNeuralNetworks)的网络结构子结构组装单元层通过一系列的边选择决策(同时考虑边标签和邻居节点状态信息)组装子结构特征,多个子结构组装单元层级联最终组装成较大的判别性子结构,利用最后一个子结构组装单元层得到的以每个节点为中心节点的各种子结构通过池化层聚合成固定长度的特征向量,然后采用全连接层预测该特征向量的类标签。本专利技术在构建判别性子结构时分层提取,提高了子结构特征的精度,有助于为后续分类任务减少分类误差。为达成上述目的,结合图1,本专利技术提出一种基于子结构组装网络的图分类方法,所述方法包括:S1:创建子结构组装网络,所述子结构组装网络包括依次连接的L个子结构组装单元层、池化层和全连接层,所述L个子结构组装单元层依次级联,每个子结构组装单元层均具有至少一个输入端和至少一个输出端,其中,距离池化层最远的子结构组装单元层的输入端为所述L个子结构组装单元层的总输入端,与池化层连接的子结构组装单元层的输出端为所述L个子结构组装单元层的总输出端,所述L为大于等于1的正整数;S2:将接收到的输入图结构导入所述L个子结构组装单元层,每层子结构组装单元层通过概率方法对输入图结构上的每个节点选择与其相连的边组成判别局部子结构,通过多个子结构组装单元层级联以提取输入图结构的总判别图特征;S3:将步骤S2中得到的输入图结构的总判别图特征通过池化层聚合成固定长度的特征向量;S4:对于步骤S3中得到的特征向量,采用全连接层进行预测以获取池化层输出的特征向量的类标签。进一步的实施例中,所述方法还包括:设输入图结构的表达式为G=(V,E,R),其中V是节点属性集的特征向量,E是边属性集的特征向量,R是边残余概率集,ri,j∈R表示边ei,j的残余概率,范围为[0,1];设Gl-1=(V(l-1),E,R(l-1))为第l个子结构组装单元层的输入,其中,V(l-1)表示组装的子结构的特征向量,R(l-1)表示第(l-1)个子结构组装单元层后更新的边残余概率,l=1,2,…,L;所述子结构组装单元层提取判别图特征包括以下两个步骤:S101:对于输入图Gl-1中每个节点i,将以节点i为中心的子结构表示为再将根据公式和公式分别映射到隐空间和输出空间,其中,和为将子结构从输入空间映射到隐空间时的控制参数,和为将子结构从隐空间映射到输出空间的控制参数;S102:选择节点i的邻居序列Ni=<j|ei,j∈E>;对于节点i的第k个邻居节点Ni(k)=j,将根据公式和公式分别映射到隐空间和输出空间;将第(k-1)个邻居后组装的子结构隐向量根据公式映射到输出特征空间;根据公式计算在节点j处的子结构被合并的概率,其中,S(l)(·)是边选择模块,计算边ei,j在第l个子结构组装单元层被选择的概率,等于1减去第(l-1)个子结构组装单元层中边ei,j被选择的累计概率,边残余概率初始化为1;根据公式计算第k个邻居节点j后组装的子结构的隐向量;根据公式更新边残余概率;将第l个子结构组装单元层完成边选择后节点i的输出作为后续层的输入。进一步的实施例中,步骤S3中,所述将步骤S2中得到的输入图结构的总判别图特征通过池化层聚合成固定长度的特征向量是指,将最后一个子结构组装单元层得到的以每个节点为中心节点的各种子结构输入池化层,根据公式和g=softsign(Wp·zp+bp)将之聚合成固定长度的特征向量g。进一步的实施例中,步骤S4中,所述对于步骤S3中得到的特征向量,采用全连接层进行预测以获取池化层输出的特征向量的类标签是指,利用公式预测输入图结构的特征向量的类标签,其中的维度等于分类任务中的类数。基于前述方法,本专利技术还提及一种基于子结构组装网络的图分类系统,所述系统包括子结构组装网络,所述子结构组装网络包括依次连接的L个子结构组装单元层、池化层和全连接层,所述L个子结构组装单元层依次级联,每个子结构组装单元层均具有至少一个输入端和至少一个输出端,其中,距离池化层最远的子结构组装单元层的输入端为所述L个子结构组装单元层的总输入端,与池化层连接的子结构组装单元层的输出端为所述L个子结构组装单元层的总输出端,所述L为大于等于1的正整数;所述每层子结构组装单元层通过概率方法对输入图结构上的每个节点选择与其相连的边组成判别局部子结构,通过多个子结构组装单元层级联以提取输入图结构的总判别图特征;所述池化层用于将得到的输入图结构的总判别图特征聚合成固定长度的特征向量;所述全连接层用于对得到的特征向量进行预测以获取池化层输出的特征向量的类标签。以上本发本文档来自技高网
...

【技术保护点】
1.一种基于子结构组装网络的图分类方法,其特征在于,所述方法包括:S1:创建子结构组装网络,所述子结构组装网络包括依次连接的L个子结构组装单元层、池化层和全连接层,所述L个子结构组装单元层依次级联,每个子结构组装单元层均具有至少一个输入端和至少一个输出端,其中,距离池化层最远的子结构组装单元层的输入端为所述L个子结构组装单元层的总输入端,与池化层连接的子结构组装单元层的输出端为所述L个子结构组装单元层的总输出端,所述L为大于等于1的正整数;S2:将接收到的输入图结构导入所述L个子结构组装单元层,每层子结构组装单元层通过概率方法对输入图结构上的每个节点选择与其相连的边组成判别局部子结构,通过多个子结构组装单元层级联以提取输入图结构的总判别图特征;S3:将步骤S2中得到的输入图结构的总判别图特征通过池化层聚合成固定长度的特征向量;S4:对于步骤S3中得到的特征向量,采用全连接层进行预测以获取池化层输出的特征向量的类标签。

【技术特征摘要】
1.一种基于子结构组装网络的图分类方法,其特征在于,所述方法包括:S1:创建子结构组装网络,所述子结构组装网络包括依次连接的L个子结构组装单元层、池化层和全连接层,所述L个子结构组装单元层依次级联,每个子结构组装单元层均具有至少一个输入端和至少一个输出端,其中,距离池化层最远的子结构组装单元层的输入端为所述L个子结构组装单元层的总输入端,与池化层连接的子结构组装单元层的输出端为所述L个子结构组装单元层的总输出端,所述L为大于等于1的正整数;S2:将接收到的输入图结构导入所述L个子结构组装单元层,每层子结构组装单元层通过概率方法对输入图结构上的每个节点选择与其相连的边组成判别局部子结构,通过多个子结构组装单元层级联以提取输入图结构的总判别图特征;S3:将步骤S2中得到的输入图结构的总判别图特征通过池化层聚合成固定长度的特征向量;S4:对于步骤S3中得到的特征向量,采用全连接层进行预测以获取池化层输出的特征向量的类标签。2.根据权利要求1所述的基于子结构组装网络的图分类方法,其特征在于,所述方法还包括:设输入图结构的表达式为G=(V,E,R),其中V是节点属性集的特征向量,E是边属性集的特征向量,R是边残余概率集,ri,j∈R表示边ei,j的残余概率,范围为[0,1];设Gl-1=(V(l-1),E,R(l-1))为第l个子结构组装单元层的输入,其中,V(l-1)表示组装的子结构的特征向量,R(l-1)表示第(l-1)个子结构组装单元层后更新的边残余概率,l=1,2,…,L;所述子结构组装单元层提取判别图特征包括以下两个步骤:S101:对于输入图Gl-1中每个节点i,将以节点i为中心的子结构表示为再将根据公式和公式分别映射到隐空间和输出空间,其中,和为将子结构从输入空间映射到隐空间时的控制参数,和为将子结构从隐空间映射到输出空间的控制参数;S102:选择节点i的邻居序列Ni=<j|ei,j∈E>;对于节点i的第k个邻居节点Ni(k)=j,将根据公式和公式分别映射到隐空间和输出空间;将第(k-...

【专利技术属性】
技术研发人员:马廷淮王红妹
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1