一种基于节点影响力的多关系网络数据量化表示方法技术

技术编号:21200092 阅读:25 留言:0更新日期:2019-05-25 01:18
本发明专利技术公开了一种基于节点影响力的多关系网络数据量化表示方法。本方法为:1)对于某一目标领域的多关系网络,计算该多关系网络的各关系层节点的节点影响力;2)根据各节点的节点影响力设置对应节点的随机游走参数,包括游走长度、游走次数、节点转移概率;然后根据节点的随机游走参数在各关系层进行游走,得到游走序列;3)计算各关系层的初始权重;然后根据不同关系层的权重进行联合训练,得到节点的最终表示向量;其中,各关系层的权重正比于对应层的节点影响力总和。本方法利用节点影响力为游走采样设定更加灵活的参数,从而充分地挖掘同一节点在不同关系层中的特性,同时能够更好地利用关系之间的联系,提高节点表示向量的性能。

A Quantitative Data Representation Method for Multi-Relational Networks Based on Node Influences

The invention discloses a quantitative representation method of multi-relational network data based on node influence. The method is as follows: 1) For a multi-relational network in a target area, the node influence of each relational layer of the multi-relational network is calculated; 2) Random walk parameters of corresponding nodes are set according to the node influence of each node, including walk length, walk number and node transition probability; and then, according to the random walk parameters of nodes, the walk sequence is obtained at each relational layer. (3) Calculate the initial weights of each relationship layer; then train the nodes according to the weights of different relationship layers, and get the final expression vector of the nodes; in which, the weights of each relationship layer are proportional to the total influence of the nodes in the corresponding layer. This method uses the influence of nodes to set more flexible parameters for walking sampling, so as to fully mine the characteristics of the same node in different relational layers, and make better use of the relationship between nodes to improve the performance of node representation vectors.

【技术实现步骤摘要】
一种基于节点影响力的多关系网络数据量化表示方法
本专利技术属于机器学习领域,尤其涉及一种利用节点影响力来计算多关系网络图结构数据的表示学习方法。
技术介绍
近年来,随着社交网络的不断发展进步,人们产生并积累了越来越多的网络数据。各种各样的下游应用,都对这些数据的处理提出了准确性、稳定性、高效性等方面的要求。尤其在最为流行的链路预测以及节点分类任务上,有效地对网络数据进行量化处理,可以更加方便地应用各种现成的机器学习算法,来提高准确性和速度。因此,设计一种高效的表示学习方法来对网络数据进行量化非常必要。较早的表示学习方法主要基于矩阵特征向量计算。主要有局部线性表示(localllylinearembedding)、拉普拉斯特征表(Laplaceeigenmap)等方法,将最优化问题转化为某个关系矩阵的特征向量计算问题。但是,这样的算法存在复杂度高、计算量大的问题,尤其是在计算大规模矩阵的特征向量时非常耗时。最近流行的网络表示方法借鉴了自然语言处理领域的词向量(word2evc)算法,具体可以分为两个步骤,一是通过对网络数据进行随机游走生成类似语句的序列,二是应用基于浅层神经网络的算法来学习节点的表示向量。这类算法主要有深度游走(deepwalk),节点向量(node2vec)等等。上述的这些主流算法主要针对同构网络,也就是网络数据中节点和边的类型都只有一种。但在实际数据中,网络数据节点之间可能存在多种关系类型,不同关系之间存在较大差异。比如考虑社交网络中两个人物节点张三和李四,他们之间即可以存在朋友关系,也可以存在合作关系,这两种关系就存在差异,不能等同对待。此外传统生成节点序列的游走方法参数固定,也就是都是采用预先设置好的值,不能根据节点自身性质进行灵活调节,这样导致整个网络特征信息的缺失。
技术实现思路
根据上述发展现状,本专利技术的目的在于提出一种基于节点影响力的多关系网络数据量化表示方法。本专利技术能够通过计算不同关系层中节点的影响力,以此自适应地为随机游走设置各种游走参数,包括游走长度、游走次数、游走时节点转移概率,指导游走;之后再通过计算关系权重并根据不同关系层的权重进行融合,融合不同关系层的游走序列,最大化节点邻居的出现概率,得到最终的节点表示。为了达到上述目的,本专利技术采用了以下方案:一种基于节点影响力的多关系网络数据量化表示方法,本专利技术首先为各关系层节点计算影响力,之后,本专利技术利用所得到的节点影响力来自适应地为随机游走设置参数,包括游走长度、游走次数、节点转移概率等。每一节点都分别对应一游走参数,节点的游走长度和次数的设置值均正比于该节点影响力大小,也就是说节点的影响力越大,从该节点开始进行游走的长度就会越长,该节点被游走到的次数也会越多。节点转移概率则考虑两个节点之间的相似度,两个节点越相似,两者之间的转移概率也会越大,同时也会考虑自身影响力大小的影响,对影响力过大的节点稍加惩罚,避免过多地经过该节点。之后,本专利技术根据之前计算得到的参数,进行游走,得到游走序列,再根据不同关系层的权重进行联合训练。权重的初始值设置可以简单正比于该层节点影响力的总和。然后训练的目标是最大化所得到的序列中,节点周围邻居节点的出现概率,以此构造损失函数,利用随机梯度下降的方法来进行优化,从而得到最终的节点表示向量。本专利技术的多关系网络可以是社交网络,引文网络或者电影评论网络等。在社交网络中,节点代表用户,节点之间的关系可以有朋友关系,合作关系等;所有的朋友关系为一层网络,合作关系为另一层网络。如果是电影评论网络,则节点为用户,节点之间的关系可以有互为好友关系,或者共同为某一部电影点过赞的关系。本专利技术节点影响力的计算主要包括两部分,一部分来自节点周围的邻居节点,还有一部分来自节点自身,将这两部分融合处理来得到节点最终的影响力数值。周围邻居节点的影响力计算,因为节点的度,即节点所连接的邻居节点数量,通常都呈现非均匀分布,所以采用信息熵的形式进行计算。节点自身影响力的计算,本专利技术通过对它自身的度数取对数来进行量化。进一步所述熵的计算,本专利技术对周围邻居节点的度预先归一化,再计算熵,进行累加。进一步所述节点自身影响力的计算,本专利技术使用对数函数来进行量化,同时考虑到节点度数为1的情况,会出现取对数为0的结果,本专利技术对所有度的值乘上一个设定系数,一般为2,以避免在取对数时出现0的情况。进一步所述节点影响力的计算,将节点周围邻居节点的影响力值与节点自身影响力值相乘,得到节点最终的影响力值。所述随机游走参数游走长度、游走次数的设置,都正比于节点影响力,在实现时,为了避免游走长度、游走次数出现极大、极小值,根据预先设置好的最大、最小值,对过大部分进行截断,过小则用最小值替代。进一步所述正比于节点影响力的计算,通过使用影响力数值乘上预设的基础游走长度或者基础游走次数得到。所述节点υi至节点υj转移概率的计算,正比于υi和υj之间的相似度,反比于υi和υj自身影响力的大小。进一步所述节点之间的相似度,是两个节点共同邻居数量的大小。进一步所述节点转移概率反比于节点自身影响力的计算,具体为与节点自身影响力大小的β次幂成反比。所述网络中不同关系层的权重正比于该层节点影响力的总和,并作为该层网络损失函数系数的初始值,也就是说联合训练的最终最小化的目标函数具体公式为这里为关系层的集合,wi和Oi分别为关系层i的权重和损失函数。进一步所述每一关系层网络的损失函数,本专利技术使用P(υi|υj)表示υi出现在υj周围的概率,采用跳词(Skip-gram)模型方法,最大化一个节点周围邻居节点出现的概率,损失函数具体为其中υj为目标节点,2c为窗口大小,也就是说覆盖到目标节点左右各c个邻居,θi表示对应关系层i。进一步所述损失函数的变换,将它转变为乘积形式这里2c为滑动窗口的大小,表示需要使该窗口内的节点出现的概率最大。进一步所述节点周围邻居出现概率的计算方法,对两个节点表示向量的内积进行归一化指数函数(softmax)的计算,具体公式为uj为节点υj的向量表示,|V|为所有节点数量。进一步所述损失函数连乘形式的优化,本专利技术采用负采样的方法进行加速优化,选择ns个负例样本,而不是对所有的样本求内积和,避免了大量的计算。这样损失函数的形式就可以转变为其中进一步所述负例样本选择的方法,本专利技术按照正比于节点度数的3/4次幂的概率进行采样,即表示按照节点度数的3/4次幂(Pn(v)∝dυ3/4)的概率进行采样,这里dυ表示节点υ的度数,Pn(v)代表对节点υ取样的概率。与现有技术相比,本专利技术的积极效果为:通过对不同关系层网络分别计算节点影响力来指导随机游走,可以更好地捕捉到节点在不同关系层中的特性,同时关系层赋予不同权重也能更好地保留不同关系层之间的区别,从而提高所获得的节点表示向量的性能,继而在各种应用任务中取得更佳性能。本方法可以利用节点影响力,为游走采样设定更加灵活的参数,这样可以更加充分地挖掘同一节点在不同关系层中的特性,同时也能够更好地利用关系之间的联系,得到的节点表示向量能在各种下游任务,(包括但不局限于链路预测,节点分类),均取得不错的效果。附图说明图1为多层关系网络示意图;图2为基于节点影响力的随机游走算法流程图;图3为多关系网络嵌入算法流程图。具体本文档来自技高网
...

【技术保护点】
1.一种基于节点影响力的多关系网络数据量化表示方法,其步骤为:1)对于某一目标领域的多关系网络,计算该多关系网络的各关系层节点的节点影响力;2)根据各节点的节点影响力设置对应节点的随机游走参数,包括游走长度、游走次数、节点转移概率;然后根据节点的随机游走参数在各关系层进行游走,得到游走序列;3)计算各关系层的初始权重;然后根据不同关系层的权重进行联合训练,得到节点的最终表示向量;其中,各关系层的权重正比于对应层的节点影响力总和。

【技术特征摘要】
1.一种基于节点影响力的多关系网络数据量化表示方法,其步骤为:1)对于某一目标领域的多关系网络,计算该多关系网络的各关系层节点的节点影响力;2)根据各节点的节点影响力设置对应节点的随机游走参数,包括游走长度、游走次数、节点转移概率;然后根据节点的随机游走参数在各关系层进行游走,得到游走序列;3)计算各关系层的初始权重;然后根据不同关系层的权重进行联合训练,得到节点的最终表示向量;其中,各关系层的权重正比于对应层的节点影响力总和。2.如权利要求1所述的方法,其特征在于,设置节点的随机游走参数的方法为:节点的游走长度和游走次数均与该节点的节点影响力大小成正比;节点的转移概率与发生转移的两节点之间的相似度成正比,且与节点自身的节点影响力大小成反比。3.如权利要求2所述的方法,其特征在于,所述节点影响力的计算方法为:将节点周围邻居节点的节点影响力值与节点自身的节点影响力值相乘,得到节点最终的节点影响力。4.如权利要求3所述的方法,其特征在于,将节点的度乘上一个设定系数后取对数,得到节点自身的节点影响力,节点的度是指节点所连接的邻居节点数量。5.如权利要求2所述的方法,其特征在于,根据两个节点...

【专利技术属性】
技术研发人员:薛聪王炯彭佳
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1