一种基于图卷积网络的图可视化方法技术

技术编号:21115863 阅读:35 留言:0更新日期:2019-05-16 09:01
本发明专利技术公开了一种基于图卷积网络的图可视化方法,其步骤包括:1)对于目标领域的网络G=(V,E),将网络G中的节点嵌入到一个低维欧式空间中,得到网络G的低维嵌入向量;所述低维嵌入向量包含网络G中节点的特征信息和网络G的拓扑结构信息;其中,V是节点集合,E是边集合;2)将所述低维嵌入向量构造成一张K近邻图,即KNN图;3)基于概率模型将所述KNN图在二维空间中绘制出来。本发明专利技术学习到的嵌入向量同时保留了节点的结构信息和特征信息,可以对可视化结果进行粒度化调整。

【技术实现步骤摘要】
一种基于图卷积网络的图可视化方法
本专利技术属于网络嵌入-网络可视化
,涉及一种基于图卷积网络的图可视化方法。
技术介绍
随着大数据时代的到来,全球信息数据量呈爆炸式增长。网络成为表达数据之间复杂关系的重要形式,在信息世界中无处不在。Facebook、微信等社交媒体构成了社交网络;生物中的蛋白质构成了高分子网络;各类通讯媒介构成了通信网络;智能硬件之间构成了物联网等等。很多网络的节点除了互相连接以外,还附加有丰富的文本、图像、音视频等多媒体信息,形成了典型的复杂信息网络。通过对复杂网络进行表示并进行可视化绘制,可以宏观分析网络的数据分布情况,包括聚类、分类等,为后续网络分析任务提供技术支撑。如果要可视化网络首先需要对网络进行表示,包括节点的拓扑结构信息和特征信息。传统的网络表示方案是通过建立邻接矩阵表示网络结构,假设网络G=(V,E),其中V是节点集合,E是边集合,网络的邻接矩阵定义为A∈|V|×|V|,其中Aij=1如果(vi,vj)∈E,否则Aij=0的。随着网路规模不断扩大,邻接矩阵占用大量的存储空间,而且其中的大部分元素都是0,面临严重的稀疏性问题。近些年来,随着以深度学习为代表的特征学习技术在自然语言处理领域的广泛应用,研究者开始探索面向网络的特征表示方案,即类似于自然语言处理中的词向量嵌入技术(word2vec,参考MikolovT,ChenK,CorradoG,etal.Efficientestimationofwordrepresentationsinvectorspace[J].arXivpreprintarXiv:1301.3781,2013.),将网络节点嵌入到低维欧式空间中,即用低维稠密向量表示。LocalLinearEmbedding(参考RoweisST,SaulLK.Nonlineardimensionalityreductionbylocallylinearembedding[J].science,2000,290(5500):2323-2326.)、LaplacianEigenmap(参考BelkinM,NiyogiP.Laplacianeigenmapsandspectraltechniquesforembeddingandclustering[C]//Advancesinneuralinformationprocessingsystems.2002:585-591.)是基于矩阵分解的方法。LLE算法的输入是一个邻接矩阵,然后计算出每个节点的局部重建权值矩阵,最后推导出特征值分解问题,进而计算节点的低维表示。LaplacianEigenmaps算法最终选取网络的拉普拉斯矩阵的最小k个非零特征值对应的特征向量作为节点的低维表示。DeepWalk(参考PerozziB,Al-RfouR,SkienaS.Deepwalk:Onlinelearningofsocialrepresentations[C]//Proceedingsofthe20thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.ACM,2014:701-710.)和node2vec(参考GroverA,LeskovecJ.node2vec:Scalablefeaturelearningfornetworks[C]//Proceedingsofthe22ndACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.ACM,2016:855-864)是基于随机游走的的方法。DeepWalk的作者Perozzi观察到如果在网络上进行随机游走,节点出现的次数与语料中单词出现的次数都服从幂律分布(powerlaw)。Perozzi通过均匀分布随机游走在网络中采样得到一系列节点序列,将其类比为句子,组成网络“语料”作为word2vec模型的输入,并且将输出层建模为一颗哈夫曼树以提高DeepWalk的训练速度。node2ve通过改变生成随机游走序列的方式加强了DeepWalk算法。DeepWalk是按照均匀分布随机选取随机游走序列的下一个节点。node2vec同时考虑了广度优先搜索(BFS)和深度优先搜索(DFS)。Grover等发现,广度优先搜索注重刻画网络中的局部特征,而深度优先搜索能更好地遍历整个网络,反映了节点间的同质性。node2vec引入searchbias函数来控制这两种采样方式,通过参数p和q来调整下一步的跳转概率。获得网络的表示之后即可应用网络可视化算法将网络绘制出来。力导向图是一种在视觉上让人感到舒适的节点绘制算法,其将整张网络想像成一个物理系统,系统中每个节点都是一个带有能量的粒子,系统中的粒子在引力和斥力作用下不断调整位置,最终使整个系统的能量最小。然而,力导向图并没有利用到节点的丰富的特征信息,与机器学习、数据挖掘任务没有直接的关联。t-SNE(参考MaatenL,HintonG.Visualizingdatausingt-SNE[J].Journalofmachinelearningresearch,2008,9(Nov):2579-2605)是Maaten提出的一种数据可视化的算法,其思想是将高维空间中距离相近的点映射到二维空间后的距离也应该相近。t-SNE将距离关系转换为概率分布,对节点i分别计算在高维空间中和低维空间中以vi中心点的条件概率p(j|i)和q(j|i),然后最小化所有点在两个空间中概率分布的KL散度。现有技术的缺点及本申请提案要解决的技术问题1.现有的网络表示方法只利用了节点的特征信息或属性信息,而网络中的节点除了特征信息外,还具有丰富的拓扑结构信息。例如,互相连接的节点可能具有相似的特征或属性。2.现有的网络表示方法大多是针对静态网络的,如果网络中增加了新的节点,需要重新进行训练,可扩展性较差。3.现有的可视化方法对于类间的区分还不够明显,并且所有的节点在全部绘制在一张图上,不能反映出节点的重要性程度。
技术实现思路
本专利技术针对
技术介绍
中描述的现状,提出一种基于图卷积网络的图可视化方法。本专利技术学习到的嵌入向量同时保留了节点的结构信息和特征信息,可以对可视化结果进行粒度化调整。本专利技术利用图卷积网络对网络进行表示,学习到的嵌入向量同时保留了节点的结构信息和特征信息。利用了PageRank算法对节点进行分类,可以以不同粒度呈现出可视化的结果。本专利技术的技术方案为:一种基于图卷积网络的图可视化方法,其步骤包括:1)对于目标领域的网络G=(V,E),将网络G中的节点嵌入到一个低维欧式空间中,得到网络G的低维嵌入向量;所述低维嵌入向量包含网络G中节点的特征信息和网络G的拓扑结构信息;其中,V是节点集合,E是边集合;2)将所述低维嵌入向量构造成一张K近邻图,即KNN图;3)基于概率模型将所述KNN图在二维空间中绘制出来。进一步的,设置一粒度参数,基于PageRank算法计算每个所述节点的重要性评分,所述粒度参数的不同取值分别对应不同的节点重要性评分;当调整粒度参数大小时展示对应不同重要程度的节点。进一步的,根据PageRa本文档来自技高网
...

【技术保护点】
1.一种基于图卷积网络的图可视化方法,其步骤包括:1)对于目标领域的网络G=(V,E),将网络G中的节点嵌入到一个低维欧式空间中,得到网络G的低维嵌入向量;所述低维嵌入向量包含网络G中节点的特征信息和网络G的拓扑结构信息;其中,V是节点集合,E是边集合;2)将所述低维嵌入向量构造成一张K近邻图,即KNN图;3)基于概率模型将所述KNN图在二维空间中绘制出来。

【技术特征摘要】
1.一种基于图卷积网络的图可视化方法,其步骤包括:1)对于目标领域的网络G=(V,E),将网络G中的节点嵌入到一个低维欧式空间中,得到网络G的低维嵌入向量;所述低维嵌入向量包含网络G中节点的特征信息和网络G的拓扑结构信息;其中,V是节点集合,E是边集合;2)将所述低维嵌入向量构造成一张K近邻图,即KNN图;3)基于概率模型将所述KNN图在二维空间中绘制出来。2.如权利要求1所述的方法,其特征在于,设置一粒度参数,基于PageRank算法计算每个所述节点的重要性评分,所述粒度参数的不同取值分别对应不同的节点重要性评分;当调整粒度参数大小时展示对应不同重要程度的节点。3.如权利要求2所述的方法,其特征在于,根据PageRank网页排序算法计算每个节点的重要性评分。4.如权利要求1所述的方法,其特征在于,节点vi的重要性评分其中,是所有对vi有出链的节点集合,L(vj)是节点vj的出链数目,N是节点总数,α为一设定系数,0<α<1。5.如权利要求1所述的方法,其特征在于,将网络G中的节点嵌入到一个低维欧式空间中,得到网络G的低维嵌入向量的方法为:1)设置一参数k代表神经网络的卷积层数或者搜索深度、代表在神经网络第k层时节点v的向量表示,v∈V;在k=0,将网络G中节点v的特征向量赋值给2)在神经网络的后续每一层卷积层都重复如下步骤:首先对于每个节点v∈V,将v的邻接节点的上一层向量的表示汇聚成一个单独的向量其中,N(v)表示对节点v的邻接节点的采样,然后将节点v的上一层的向量表示与邻域节点聚合成的向量拼接在一起,得到向量3)将向量传递给一个全连接层进行计算其中,Wk为...

【专利技术属性】
技术研发人员:朱梓豪周川曹亚男张鹏刘萍郭莉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1