The invention discloses a graph classification method and system based on sub-structure assembly network, which includes: sub-structure assembly unit layer, pooling layer and full connection layer; sub-structure assembly unit layer takes arbitrary size graph structure as input, and makes progressive edge selection on the edges connected with it by probability method on each node, thus forming a center of each node. Centralized discriminant local substructures, multiple substructure assembly units are cascaded to form larger discriminant substructures; various substructures with each node as the center node obtained from the last substructure assembly unit layer are aggregated into fixed-length feature vectors through the pooling layer to facilitate subsequent classification; and the output of the pooling layer is predicted by the full connection layer to obtain the class labels. The method fully combines pattern search and deep learning to extract discriminant substructures, and can effectively reduce classification errors.
【技术实现步骤摘要】
一种基于子结构组装网络的图分类方法和系统
本专利技术涉及图数据挖掘
,具体而言涉及一种基于子结构组装网络的图分类方法和系统。
技术介绍
图结构的数据可以描述事物之间复杂的相互关系,现实世界中如生物蛋白质-蛋白质相互作用网络、化合物、社交网络等这些图数据的激增,导致了图挖掘研究的兴起。图分类在生物化学、计算机科学、社交网络等诸多领域都有重要的研究和应用价值。图分类是社会网络和生物数据分析的重要工具,旨在从训练数据中训练分类器以预测测试数据的类标签,其中训练和测试样本均为图结构。例如,在蛋白质或酶的数据中,我们可以发现疾病或有缺陷的化合物的表象;在生物学中,用图结构表示蛋白质结构,其中每个顶点代表氨基酸,每条边代表该边所连接的不同氨基酸之间的接触残基,通过实验观察,对变异的蛋白质结构图进行分析,提取病变蛋白质的结构特征并构建分类模型,可用于预测未知蛋白质的病变属性;在社交网络中,我们可以根据其内部结构特征对社会群体进行分类或预测协作关系等。现有的图分类方法主要分为两类:核方法和深度学习。典型的核方法主要WL子树核、随机游走核和最短路径核等,这些方法在考虑可扩展性时通常涉及高计算复杂性,同时相似度矩阵计算和分类学习是两个独立的步骤,因此训练阶段提取的特征图不能优化后续分类任务(Shortest-pathkernelsongraphs.BorgwardtandKriegel)。而深度学习是端到端的,特征提取和分类一步到位,能够从原始数据自动提取特征,现有的基于深度学习的图分类方法分为两大类:谱方法和空间方法。谱方法主要从谱图理论中得到启发,谱方法的一些变体试 ...
【技术保护点】
1.一种基于子结构组装网络的图分类方法,其特征在于,所述方法包括:S1:创建子结构组装网络,所述子结构组装网络包括依次连接的L个子结构组装单元层、池化层和全连接层,所述L个子结构组装单元层依次级联,每个子结构组装单元层均具有至少一个输入端和至少一个输出端,其中,距离池化层最远的子结构组装单元层的输入端为所述L个子结构组装单元层的总输入端,与池化层连接的子结构组装单元层的输出端为所述L个子结构组装单元层的总输出端,所述L为大于等于1的正整数;S2:将接收到的输入图结构导入所述L个子结构组装单元层,每层子结构组装单元层通过概率方法对输入图结构上的每个节点选择与其相连的边组成判别局部子结构,通过多个子结构组装单元层级联以提取输入图结构的总判别图特征;S3:将步骤S2中得到的输入图结构的总判别图特征通过池化层聚合成固定长度的特征向量;S4:对于步骤S3中得到的特征向量,采用全连接层进行预测以获取池化层输出的特征向量的类标签。
【技术特征摘要】
1.一种基于子结构组装网络的图分类方法,其特征在于,所述方法包括:S1:创建子结构组装网络,所述子结构组装网络包括依次连接的L个子结构组装单元层、池化层和全连接层,所述L个子结构组装单元层依次级联,每个子结构组装单元层均具有至少一个输入端和至少一个输出端,其中,距离池化层最远的子结构组装单元层的输入端为所述L个子结构组装单元层的总输入端,与池化层连接的子结构组装单元层的输出端为所述L个子结构组装单元层的总输出端,所述L为大于等于1的正整数;S2:将接收到的输入图结构导入所述L个子结构组装单元层,每层子结构组装单元层通过概率方法对输入图结构上的每个节点选择与其相连的边组成判别局部子结构,通过多个子结构组装单元层级联以提取输入图结构的总判别图特征;S3:将步骤S2中得到的输入图结构的总判别图特征通过池化层聚合成固定长度的特征向量;S4:对于步骤S3中得到的特征向量,采用全连接层进行预测以获取池化层输出的特征向量的类标签。2.根据权利要求1所述的基于子结构组装网络的图分类方法,其特征在于,所述方法还包括:设输入图结构的表达式为G=(V,E,R),其中V是节点属性集的特征向量,E是边属性集的特征向量,R是边残余概率集,ri,j∈R表示边ei,j的残余概率,范围为[0,1];设Gl-1=(V(l-1),E,R(l-1))为第l个子结构组装单元层的输入,其中,V(l-1)表示组装的子结构的特征向量,R(l-1)表示第(l-1)个子结构组装单元层后更新的边残余概率,l=1,2,…,L;所述子结构组装单元层提取判别图特征包括以下两个步骤:S101:对于输入图Gl-1中每个节点i,将以节点i为中心的子结构表示为再将根据公式和公式分别映射到隐空间和输出空间,其中,和为将子结构从输入空间映射到隐空间时的控制参数,和为将子结构从隐空间映射到输出空间的控制参数;S102:选择节点i的邻居序列Ni=<j|ei,j∈E>;对于节点i的第k个邻居节点Ni(k)=j,将根据公式和公式分别映射到隐空间和输出空间;将第(k-...
【专利技术属性】
技术研发人员:马廷淮,王红妹,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。