The invention discloses a quantitative representation method of multi-relational network data based on node influence. The method is as follows: 1) For a multi-relational network in a target area, the node influence of each relational layer of the multi-relational network is calculated; 2) Random walk parameters of corresponding nodes are set according to the node influence of each node, including walk length, walk number and node transition probability; and then, according to the random walk parameters of nodes, the walk sequence is obtained at each relational layer. (3) Calculate the initial weights of each relationship layer; then train the nodes according to the weights of different relationship layers, and get the final expression vector of the nodes; in which, the weights of each relationship layer are proportional to the total influence of the nodes in the corresponding layer. This method uses the influence of nodes to set more flexible parameters for walking sampling, so as to fully mine the characteristics of the same node in different relational layers, and make better use of the relationship between nodes to improve the performance of node representation vectors.
【技术实现步骤摘要】
一种基于节点影响力的多关系网络数据量化表示方法
本专利技术属于机器学习领域,尤其涉及一种利用节点影响力来计算多关系网络图结构数据的表示学习方法。
技术介绍
近年来,随着社交网络的不断发展进步,人们产生并积累了越来越多的网络数据。各种各样的下游应用,都对这些数据的处理提出了准确性、稳定性、高效性等方面的要求。尤其在最为流行的链路预测以及节点分类任务上,有效地对网络数据进行量化处理,可以更加方便地应用各种现成的机器学习算法,来提高准确性和速度。因此,设计一种高效的表示学习方法来对网络数据进行量化非常必要。较早的表示学习方法主要基于矩阵特征向量计算。主要有局部线性表示(localllylinearembedding)、拉普拉斯特征表(Laplaceeigenmap)等方法,将最优化问题转化为某个关系矩阵的特征向量计算问题。但是,这样的算法存在复杂度高、计算量大的问题,尤其是在计算大规模矩阵的特征向量时非常耗时。最近流行的网络表示方法借鉴了自然语言处理领域的词向量(word2evc)算法,具体可以分为两个步骤,一是通过对网络数据进行随机游走生成类似语句的序列,二是应用基于浅层神经网络的算法来学习节点的表示向量。这类算法主要有深度游走(deepwalk),节点向量(node2vec)等等。上述的这些主流算法主要针对同构网络,也就是网络数据中节点和边的类型都只有一种。但在实际数据中,网络数据节点之间可能存在多种关系类型,不同关系之间存在较大差异。比如考虑社交网络中两个人物节点张三和李四,他们之间即可以存在朋友关系,也可以存在合作关系,这两种关系就存在差异,不能等同对待 ...
【技术保护点】
1.一种基于节点影响力的多关系网络数据量化表示方法,其步骤为:1)对于某一目标领域的多关系网络,计算该多关系网络的各关系层节点的节点影响力;2)根据各节点的节点影响力设置对应节点的随机游走参数,包括游走长度、游走次数、节点转移概率;然后根据节点的随机游走参数在各关系层进行游走,得到游走序列;3)计算各关系层的初始权重;然后根据不同关系层的权重进行联合训练,得到节点的最终表示向量;其中,各关系层的权重正比于对应层的节点影响力总和。
【技术特征摘要】
1.一种基于节点影响力的多关系网络数据量化表示方法,其步骤为:1)对于某一目标领域的多关系网络,计算该多关系网络的各关系层节点的节点影响力;2)根据各节点的节点影响力设置对应节点的随机游走参数,包括游走长度、游走次数、节点转移概率;然后根据节点的随机游走参数在各关系层进行游走,得到游走序列;3)计算各关系层的初始权重;然后根据不同关系层的权重进行联合训练,得到节点的最终表示向量;其中,各关系层的权重正比于对应层的节点影响力总和。2.如权利要求1所述的方法,其特征在于,设置节点的随机游走参数的方法为:节点的游走长度和游走次数均与该节点的节点影响力大小成正比;节点的转移概率与发生转移的两节点之间的相似度成正比,且与节点自身的节点影响力大小成反比。3.如权利要求2所述的方法,其特征在于,所述节点影响力的计算方法为:将节点周围邻居节点的节点影响力值与节点自身的节点影响力值相乘,得到节点最终的节点影响力。4.如权利要求3所述的方法,其特征在于,将节点的度乘上一个设定系数后取对数,得到节点自身的节点影响力,节点的度是指节点所连接的邻居节点数量。5.如权利要求2所述的方法,其特征在于,根据两个节点...
【专利技术属性】
技术研发人员:薛聪,王炯,彭佳,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。