当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法技术方案

技术编号:18913903 阅读:92 留言:0更新日期:2018-09-12 03:04
本发明专利技术提供了一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法,通过将图对应的邻接矩阵中的连接信息元素集中到邻接矩阵的特定的对角线区域中,将非连接信息元素提前进行削减,这样在使用大小固定的窗口沿对角线区域遍历就可以捕获图中所有对应大小的子图结构时,时间复杂度大大降低了;进一步使用过滤矩阵沿对角线方向提取图的子图结构,然后采用层叠的卷积神经网络提取更大的子图结构,一方面大大减少了计算复杂度和计算量,解决了计算复杂度的限制和窗口大小的限制,并且能够通过较小的窗口捕获大型多顶点的子图结构,以及来自顶点和边的隐式相关结构的深层特征,提高了图分类的准确性和速度。

A Connection Information Regulating System, Graph Feature Extracting System, Graph Classification System and Method Based on Adjacency Matrix

The invention provides a connection information regularization system, a graph feature extraction system, a graph classification system and a graph classification system based on the adjacency matrix. By concentrating the connection information elements in the adjacency matrix corresponding to the graph into a specific diagonal area of the adjacency matrix, the non-connection information elements are reduced in advance, so that the use is large. The time complexity is greatly reduced when small fixed windows traverse the diagonal region to capture all the sub-graph structures of corresponding sizes in the graph; furthermore, the sub-graph structure is extracted along the diagonal direction by using the filter matrix, and then the larger sub-graph structure is extracted by using the cascaded convolution neural network, which reduces greatly on the one hand. Computational complexity and computational complexity are reduced, the limitation of computational complexity and window size are solved, and the sub-graph structure of large multi-vertex can be captured through a small window, and the deep features from the implicit correlation structure of vertices and edges can be captured, which improves the accuracy and speed of graph classification.

【技术实现步骤摘要】
一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法
本专利技术属于人工智能领域,具体涉及一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法。
技术介绍
图论中的图(graph)是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有某种关系。图论中的图(Graph)G是一个有序二元组(V,E),其中V称为顶点集(vertexset),即图中所有顶点组成的集合,E称为边集(edgeset),即所有顶点之间的边组成的集合。简单的说,顶点表示事物,边表示事物之间的关系。图(graph)是一种非网格数据(non-griddata),这类数据的特点是,在具体的场景中维度(dimension)是不确定的,并且维度高且无上限,所述的图的维度(dimension)是指图的顶点的数量。例如化学结构式可以对应一个图(graph),其中原子即为图(graph)中的顶点,原子间的化学键即为图(graph)中的边。一个分子的维度为该分子中包含的原子数量,例如一个分子包含100个原子组成,则该分子的维度为100。在一个分子的集合中,每个分子由数量不定的原子构成,故其维度是不确定的。现实中蛋白质等复杂结构往往由几十甚至上百个原子构成,其维度就高达几十甚至上百。又例如社交网络也可以对应一个图(graph),其中,人即图(graph)中的顶点,人与人之间的关系即图(graph)中的边,社交网络的维度会更高且更加复杂,一般较大的社交网络能有几千个顶点,几万条边,维度就高达几千,可见图论中的图对应的维度是非常高的,且无上限。另一方面,图片、文本、音视频等数据均属于网格数据(griddata),该类数据特点是,维度低(不超过3维),并且维度是确定的。例如图片(image),对于一个图片的集合,图片的维度不受图片的数量的影响,对于一张图片,它的维度可以表示为2维或3维,更多张的图片(例如数百张),其维度是不变的,仍然为2维或3维。可见,网格数据和非网格数据是两种完全不同的数据,非网格数据相比于网格数据有着更高且不确定的维度和更复杂的结构,对两种数据的分类方法和特征提取方法也是完全不同的。商业、科学和工程学中的许多复杂问题可以被抽象为图(graph)的问题,然后可以通过使用图分析算法来解决。图分类(graphclassification)问题将图(graph)视为复杂对象,根据图中隐藏的常见子图结构模式构建深度学习模型来学习图的分类(graphclassification)。例如,MUTAG数据集由许多硝基化合物组成,其中类别标签可以指示化合物对细菌是否具有诱变作用。另一个例子是将不可见化合物映射到其对癌细胞的活性水平上。图分类问题(graphclassification)将图视为复杂对象,根据图中隐藏的常见子图(subgraph)结构模式构建深度学习模型来学习图的分类。所述子图(subgraph)是指图中部分顶点以及将这些顶点连接起来的边表现出的图论中的图。复杂对象分类的方法通常通过设计适合的相似度函数来测量两个复杂对象之间的相似距离,然后再使用一些分类算法来对复杂对象进行分类。现有的基于图相似度计算模型的图分类大致分为两类:(1)基于局部子图的方法;这类方法根据较小子图结构在图中是否存在或出现次数来计算图之间的相似度,这类方法核心思想在于将重要的子图结构识别为用于图分类的关键特征,然后,通过将待分类的各图表示为包含这些子图结构关键特征信息的向量,向量中每个元素表示相应子图结构的权重,最后应用现有的机器学习算法来进行训练和预测。使用这样的子图结构作为关键特征会受限于子图大小(通常称为窗口大小,window-size),因为子图大小增大会导致子图枚举的计算复杂度和计算量大大增加,通常是增加一个窗口大小,计算量会以指数级别增加,到一定极限会超出计算机的执行时间(runningtime)和内存(memoryusage)的承受能力。因此,该方法会受限于窗口大小(选择的子图大小不能超过10个顶点),而这将导致图的特征中缺少对分类至关重要、但通过小的窗口(不超过10)无法捕获的子图结构,进而可能导致较高的分类错误率。(2)基于全局相似度(globalsimilarity-based)的方法;这类方法的核心思想是计算图的成对相似度(pairwisesimilarity,距离),这类方法通常先编码(encode)子图特征,然后创建距离/相似度矩阵,在距离矩阵上使用现有的监督学习算法去进行分类,比如kNN和SVM。图核(graphkernel)和图嵌入(graphembedding)是图相似度计算模型的图分类方法中最新的两种代表性方法。然而,以上两种图分类的现有方法都存在着严重的缺点。首先,与文本、图像、视频和场景数据集等网格数据的分类相比,作为非网格数据,图(Graph)的特征提取构成了一些独特的挑战。图(Graph)由两种类型的元素组成——顶点和边,将图作为整个对象来分析,不仅需要捕获来自图(Graph)的显式拓扑结构的浅层特征,而且需要捕获来自顶点和边的隐式(隐藏)相关结构的深层特征。因此,很难在确定性特征空间中表示图(Graph)。其次,捕获隐式结构相关模式对于图(Graph)的高质量分类至关重要。无论是较小且固定大小的子图模式匹配(局部相似性)还是图的成对相似性(全局相似性)都不足以捕获复杂隐藏相关模式,用于对具有不同大小和不同结构复杂度的图进行分类。卷积神经网络(CNN)在深度学习中处理网格数据方面取得了显著的成功,例如文本、图像、音视频和流数据以及大规模场景分析。这些数据都属于网格数据,它们有确定的维度且维度低,且网格数据中的数据具有平移、缩放和旋转不变等特点。图(graph)是非网格数据(non-griddata),卷积神经网络(CNN)不能直接地应用到图上,因为CNN中的卷积和池化操作是仅定义在常规网格数据(griddata)上的操作,而不能直接在非网格数据(non-griddata)上做卷积操作。(ConvolutionalNeuralNetworksonGraphswithFastLocalizedSpectralFiltering,30thConferenceonNeuralInformationProcessingSystems(NIPS2016),Barcelona,Spain,1-8)。MathiasNiepert等首次将卷积神经网络应用于图的分类问题中(Learningconvolutionalneuralnetworksforgraphs,Proceedingsofthe33rdInternationalConferenceonMachineLearning,NewYork,NY,USA,2016,2014-2023),文中提出的PSCN方法,对于输入的图(graph),首先对图的顶点进行标注(GraphLabeling),根据标注结果将图的顶点进行排序,选择前w个顶点作为中心顶点;对选取的w个顶点,每个顶点采取广度优先的方式选取它的k个相邻顶点(根据GraphLabeling排序选取),这样本文档来自技高网...

【技术保护点】
1.一种在计算机环境中基于邻接矩阵的连接信息规整系统,其特征在于:所述的连接信息规整系统用于将图对应的第一邻接矩阵中的全部顶点进行重新排序,得到第二邻接矩阵,所述第二邻接矩阵中的连接信息元素集中分布在所述第二邻接矩阵的宽度为n的对角线区域,其中n为正整数,n≥2且n

【技术特征摘要】
2017.06.28 CN 2017105104744;2017.07.01 CN 201710521.一种在计算机环境中基于邻接矩阵的连接信息规整系统,其特征在于:所述的连接信息规整系统用于将图对应的第一邻接矩阵中的全部顶点进行重新排序,得到第二邻接矩阵,所述第二邻接矩阵中的连接信息元素集中分布在所述第二邻接矩阵的宽度为n的对角线区域,其中n为正整数,n≥2且n<|V|,所述的|V|为第二邻接矩阵的行数或列数;所述第二邻接矩阵的对角线区域由以下元素组成:正整数i从1遍历至|V|,当i>max(n,|V|-n)时,选取第i行中第(i-n+1)到|V|列的元素;当i≤n,选取第i行中第0至i+n-1列的元素;当max(n,|V|-n)≥i≥min(|V|-n,n),则第i列中,选取第(i-n+1)列到第(i+n-1)列的元素;所述的连接信息元素是图中的边在邻接矩阵中对应的元素;所述的图为图论中的图;优选的,如果所述的图中边上没有权重,所述的连接信息元素的值为1,非连接信息元素的值为0;更优选的,如果所述的图中边上带有权重,则所述的连接信息元素的值为边的权重值,非连接信息元素的值为0;优选的,所述对角线区域指矩阵中从左上角至右下角的对角线区域;优选的,所述第二邻接矩阵的对角线区域是使用一个尺寸为n×n的扫描矩形框沿所述第二邻接矩阵的对角线扫描一遍所经过的区域;更优选的,所述的扫描过程如下:首先,将所述扫描矩形框的左上角与第二邻接矩阵的左上角重合;然后每次将所述扫描矩形框往右方和下方各移动一个元素格,直至所述扫描矩形框的右下角与所述第二邻接矩阵的右下角重合。2.一种在计算机环境中基于邻接矩阵的图特征提取系统,其特征在于:所述的图特征提取系统基于图的邻接矩阵抽取出图的特征,所述的特征直接对应支持分类的子图结构,所述的特征以至少一个向量的形式呈现,每一个向量对应一种混合态在图中的分布情况;所述的图特征提取系统包括特征生成模块和权利要求1所述的连接信息规整系统;其中:所述的连接信息规整模块用于将图对应的第一邻接矩阵中的全部顶点进行重新排序,得到第二邻接矩阵;所述的特征生成模块基于所述的第二邻接矩阵,生成图的特征,所述的特征直接对应支持分类的子图结构,每一个向量对应一种混合态在图中的分布情况;所述的图、子图均为图论中的图;优选的,所述的特征生成模块利用过滤矩阵生成图的特征,所述的过滤矩阵为正方形矩阵;更优选的,所述的特征生成模块利用至少一个过滤矩阵,沿所述第二邻接矩阵的对角线区域进行过滤操作,得到至少一个向量,所述的至少一个向量对应于所述的图的特征,所述的特征直接对应支持分类的子图结构,每一个向量对应一种混合态在图中的分布情况;优选的,所述过滤矩阵的尺寸为n×n;优选的,所述的分布情况是指图中出现该混合态中的子图结构的可能性;优选的,每一个所述的混合态代表任意多个子图结构对应的邻接矩阵的线性加权;更优选的,所述的线性加权是指每一个子图的邻接矩阵乘以该邻接矩阵对应的权值,然后对位相加到一起,得到一个与子图的邻接矩阵相同大小的矩阵;优选的,所述的过滤操作是利用所述的过滤矩阵对所述第二邻接矩阵对位的矩阵内积的加和,通过激活函数得到一个值,让过滤矩阵沿所述第二邻接矩阵的对角线方向移动,从而得到一组值,形成一个向量,该向量对应一种子图结构在图中的分布情况;更优选的,所述的激活函数为sigmoid函数、ReLU激活函数、pReLU函数;优选的,所述的特征生成模块利用不同的过滤矩阵,进行所述的过滤操作;优选的,所述过滤矩阵中每一个元素的初始值分别从高斯分布中取出的随机变量的值;优选的,所述的过滤矩阵中的元素为大于等于-1、小于等于1的实数;更优选的,所述的过滤矩阵中的元素为大于等于0、小于等于1的实数;优选的,所述的特征生成模块参与机器学习过程,所述机器学习过程用于调整所述过滤矩阵的元素的值;优选的,所述的机器学习过程是利用反向传播,利用分类的损失值,计算梯度值,进一步调节过滤矩阵中的各个元素的值。3.一种在计算机环境中基于邻接矩阵的图分类系统,其特征在于:所述的图分类系统包括类别标注模块和权利要求2所述的图特征提取系统,所述的类别标注模块基于所述图特征提取系统生成的特征对图进行类别标注,输出图的类别;所述的图为图论中的图;优选的,所述的类别标注模块计算出图属于各个分类标签的可能性,并将可能性最高的分类标签标注为图的类别,完成图的分类;优选的,所述的类别标注模块利用分类算法计算出图属于各个分类标签的可能性,并将可能性最高的分类标签标注为图的类别,完成图的分类;更优选的,所述的分类算法选自kNN、线性分类算法中的任意一种或任意多种。4.根据权利要求3所述的图分类系统,其特征在于:所述的图分类系统还进一步包含层叠CNN模块,所述的层叠CNN模块基于所述的图特征提取系统生成的特征进行处理,融合所述的特征对应的支持分类的子图结构,生成包含图中更大子图结构的特征,所述的更大子图结构是指顶点个数多于n的子图结构;优选的,所述的层叠CNN模块包括卷积子模块和池化子模块;所述的卷积子模块使用至少一个卷积层基于所述的图特征提取系统生成的特征进行卷积操作,融合所述的特征对应的支持分类的子图结构,得到至少一个向量作为卷积结果;第一个卷积层的输入为权利要求2所述的图特征提取系统生成的特征,如果有多个卷积层,每一个卷积层的输入为前一个卷积层的输出结果,每一个卷积层的输出结果均为至少一个向量,每一个卷积层使用至少一个过滤矩阵进行卷积操作,最后一个卷积层的卷积结果输出至所述的池化子模块;所述的过滤矩阵为正方形矩阵;每一个所述卷积层中所述过滤矩阵的行数与输入该卷积层的向量的数量相同;优选的,所述的过滤矩阵中的元素为大于等于-1、小于等于1的实数;更优选的,所述的过滤矩阵中的元素为大于等于0、小于等于1的实数;所述的池化子模块用于对所述卷积子模块得到的矩阵进行池化操作,得到至少一个向量作为池化结果输出至所述的类别标注模块,对图进行类别标注,输出图的类别,所述池化结果包含图中更大子图结构的特征;所述的更大子图结构是指顶点个数多于n的子图结构;优选的,所述的池化操作选自最大池化操作、平均池化操作。5.根据权利要求3所述的图分类系统,其特征在于:所述的图分类系统还进一步包含独立池化模块和卷积池化模块;所述的独立池化模块用于对所述的图特征提取系统生成的特征进行池化操作,得到至少一个向量作为第一池化结果输出至所述的类别标注模块;所述的卷积池化模块对输入的权利要求2所述的图特征提取系统生成的特征进行卷积和池化处理,融合所述的特征对应的支持分类的子图结构,生成包含图中更大子图结构特征的第二池化结果,将其输出至所述的类别标注模块;所述的类别标注模块根据所述第一池化结果和第二池化结果对图进行类别标注,输出图的类别;所述的更大子图结构是指顶点个数多于n的子图结构;优选的,所述的卷积池化模块包含卷积子模块和池化子模块;所述的卷积子模块使用至少一个过滤矩阵对输入进行卷积操作,融合所述的特征对应的支持分类的子图结构,得到至少一个向量作为卷积结果传递给池化子模块;所述的池化子模块对所述的卷积结果进行池化操作,得到至少一个向量作为第二池化结果,所述第二池化结果包含图中更大子图结构的特征,将所述的池化结果输出至所述的类别标注模块;所述的过滤矩阵为正方形矩阵;每一个所述卷积层中所述过滤矩阵的行数与输入该卷积层的向量的数量相同;优选的,所述的过滤矩阵中的元素为大于等于-1、小于等于1的实数;更优选的,所述的过滤矩阵中的元素为大于等于0、小于等于1的实数;优选的,所述的池化操作选自最大池化操作、平均池化操作。6.根据权利要求3所述的图分类系统,其特征...

【专利技术属性】
技术研发人员:罗智凌尹建伟吴朝晖邓水光李莹吴健
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1