当前位置: 首页 > 专利查询>清华大学专利>正文

为网络中节点确定向量表示形式的方法及装置制造方法及图纸

技术编号:19547419 阅读:29 留言:0更新日期:2018-11-24 21:13
本发明专利技术公开了一种为网络中节点确定向量表示形式的方法及装置,属于网络技术领域。该方法包括:根据网络中的节点和节点信息,生成网络结构;获取每个节点的初始背景向量和初始目标向量;以每个节点为起点进行随机游走,得到节点序列,并确定每个节点的节点频数;对每个节点的背景向量和目标向量进行迭代计算,得到每个节点的向量表示形式。本发明专利技术通过生成包括原始节点和群组节点的网络结构,并通过对每个节点的背景向量和目标向量进行迭代计算,得到包括原始节点和群组节点在内的每个节点的向量表示形式。由于基于原始节点和群组节点的向量表示形式,不仅可度量原始节点间的相似度,而且度量原始节点和群组节点的相似度,因而应用范围较广。

Method and Device for Determining Vector Representation Form for Nodes in Network

The invention discloses a method and device for determining the vector representation form for nodes in a network, belonging to the field of network technology. The method includes: generating the network structure according to the information of nodes and nodes in the network; obtaining the initial background vector and the initial target vector of each node; random walking with each node as the starting point to get the sequence of nodes and determine the frequency of nodes of each node; advancing the background vector and target vector of each node. The vector representation of each node is obtained by iteration. The invention generates the network structure including the original node and the group node, and obtains the vector representation of each node including the original node and the group node by iterating the background vector and the target vector of each node. Because the vector representation based on the original node and the group node can not only measure the similarity between the original node, but also measure the similarity between the original node and the group node, so it has a wide range of applications.

【技术实现步骤摘要】
为网络中节点确定向量表示形式的方法及装置
本专利技术涉及网络
,特别涉及一种为网络中节点确定向量表示形式的方法及装置。
技术介绍
近年来,随着网络技术的发展,在线社交网络、学术网络等网络已经深入到用户生活的方方面面,成为用户获取信息、传播信息、交友、学术研究的重要途径。如果将在线社交网络中的用户或学术网络中的文章称为原始节点,将用户或文章组成的群组称为群组节点,由于原始节点间、原始节点与群组节点的相似度,对国家信息安全、社会稳定及学术发展有重要影响,因此,为了更好地研究这些网络,需要为网络中节点确定向量表示形式,进而根据网络中节点向量的表示形式进行度量。以采用DeepWalk方法为例,现有技术在为网络中节点确定向量表示形式时,可采用如下方式:根据原始节点和原始节点间链接信息,生成初始网络结构;以初始网络结构中的每个原始节点为起点,根据原始节点间的链接信息,沿着网络中原始节点之间的边进行随机游走,得到节点序列;基于skip-gram模型对节点序列进行训练,得到每个原始节点的向量表示形式。由于现有技术仅确定了原始节点的向量表示形式,基于所确定的向量表示形式只能度量原始节点间的相似度,因此,现有的确定方法应用范围较窄,具有一定的局限性。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种为网络中节点确定向量表示形式的方法。所述技术方案如下:一方面,提供了一种为网络中节点确定向量表示形式的方法,所述方法包括:根据网络中的节点和节点信息,生成网络结构,所述节点包括原始节点和群组节点,所述节点信息包括原始节点间链接信息和原始节点与群组节点间链接信息;获取每个节点的初始背景向量和初始目标向量;以每个节点为起点进行随机游走,得到节点序列;根据所述节点序列,确定每个节点的节点频数;根据每个节点的初始背景向量和初始目标向量、所述节点序列以及每个节点的节点频数,确定每个节点的向量表示形式。另一方面,提供了一种为网络中节点确定向量表示形式的装置,所述装置包括:网络结构生成模块,用于根据网络中的节点和节点信息,生成网络结构,所述节点包括原始节点和群组节点,所述节点信息包括原始节点间链接信息和原始节点与群组节点间链接信息;初始向量获取模块,用于获取每个节点的初始背景向量和初始目标向量;随机游走模块,用于以每个节点为起点进行随机游走,得到节点序列;节点频数确定模块,用于根据所述节点序列,确定每个节点的节点频数;确定模块,用于根据每个节点的初始背景向量和初始目标向量、所述节点序列以及每个节点的节点频数,确定每个节点的向量表示形式。本专利技术实施例提供的技术方案带来的有益效果是:通过生成包括原始节点和群组节点的网络结构,并通过对每个节点的背景向量和目标向量进行迭代计算,得到包括原始节点和群组节点在内的每个节点的向量表示形式。由于基于原始节点和群组节点的向量表示形式,不仅可度量原始节点间的相似度,而且度量原始节点和群组节点的相似度,因而应用范围较广。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的为网络中节点确定向量表示形式的方法流程图;图2是本专利技术另一个实施例提供的一种网络结构的生成过程示意图;图3是本专利技术另一个实施例提供的一种为网络中节点确定向量表示形式的确定过程示意图;图4是本专利技术另一个实施例提供的一种为网络中节点确定向量表示形式的装置结构示意图;图5是根据一示例性实施例示出的一种用于为网络中节点确定向量表示形式的服务器。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。随着网络技术的发展,在线社交网络、学术网络等网络已经成为用户沟通交流、获取信息的重要途径,在很大程度上改变了用户的生产和生活方式,基于这些网络,用户可随时随地进行通信、购物、娱乐等。这些网络在为用户带来便利的同时,还对研究人员提出了更多挑战,例如,如何对原始节点进行链接预测、如何为原始节点推荐其他原始节点或群组节点、以及如何度量原始节点间、原始节点与群组节点间的相似度等。为了解决这些问题,可将网络中的节点投影到低维实值向量空间,也即是用一个低维实值向量表示节点,从而基于原始节点间相似度、原始节点和群组节点间相似度在网络内进行推荐和展示。当前在确定网络中节点的向量表示形式时,可采用DeepWalk、Line和Node2vec等方法。DeepWalk方法通过从网络结构中选取一个节点进行随机游走,得到至少两个节点序列,进而采用skip-gram模型对至少两个节点序列进行训练,得到每个原始节点的向量表示形式。Line方法采用两种尺度来度量原始节点间的相似度,第一种尺度是观察原始节点间是否有边直接相连,第二种尺度是观察原始节点间是否有共同的链接节点,基于这两个尺度,Line方法分别为每个原始节点向量确定一个向量表示形式,进而将两个尺度对应的向量表示形式拼接在一起,得到每个节点的最终向量表示形式。Node2vec方法是对DeepWalk方法的进一步改进,在DeepWalk方法的基础上,为随机游走过程添加两个参数,调整每一次的游走概率。在对网络进行研究时发现,由于群组内部的各个原始节点间存在某种共性,与其他群组内的原始节点相比,相似度更高,因而群组内部原始节点间的链接边比跨群组的原始节点间的链接边密度更稠密。对于两个群组,如果两个群组有较多的重合原始节点,或者两个群组的原始节点间具有更高的相似度,则这两个群组相似度较高。当然,群组与原始节点间也存在着亲疏关系,如果一个原始节点属于某些个群组,则这个原始节点与这些群组关系较近;如果一个群组中的原始节点与其他群组中的原始节点的关系较近,则这个原始节点与其他群组的关系也相应被拉近。由上述分析可知,群组结构为网络的重要特征,度量原始节点间、群组节点与原始节点间相似度,对在线社交网络等网络的研究十分重要,而现有技术所采用的三种方法在确定节点的向量表示形式时,仅考虑了原始节点间的链接信息,并未考虑群组结构特征,无法度量原始节点和群组节点的相似度。为了能够度量原始节点和群组节点的相似度,本专利技术实施例提供了一种为网络中节点确定向量表示形式的方法,该方法基于原始节点和群组节点,生成网络节点,使得原始节点和群组节点能够投影到同一个连续实值向量空间,并以包括原始节点和群组节点在内的每个节点为起点进行随机游走,生成至少两个节点序列,并根据该至少两个节点序列,确定出每个节点的节点频数,进而根据至少两个节点序列、为每个节点生成的初始背景向量和初始目标向量进行迭代计算,得到每个节点的向量表示形式。本专利技术实施例提供了一种为网络中节点确定向量表示形式的方法,参见图1,本专利技术实施例提供的方法流程包括:101、服务器根据网络中的节点和节点信息,生成网络结构。其中,网络可以为在线社交网络、学术网络等。节点包括原始节点和群组节点,节点信息包括原始节点间链接信息和原始节点与群组节点间链接信息。服务器在根据网络中的节点信息,生成网络结构时,可采用如下步骤1011~1013:1011、本文档来自技高网...

【技术保护点】
1.一种为网络中节点确定向量表示形式的方法,其特征在于,所述方法包括:根据网络中的节点和节点信息,生成网络结构,所述节点包括原始节点和群组节点,所述节点信息包括原始节点间链接信息和原始节点与群组节点间链接信息;获取每个节点的初始背景向量和初始目标向量;以每个节点为起点进行随机游走,得到节点序列;根据所述节点序列,确定每个节点的节点频数;根据每个节点的初始背景向量和初始目标向量、所述节点序列以及每个节点的节点频数,确定每个节点的向量表示形式。

【技术特征摘要】
1.一种为网络中节点确定向量表示形式的方法,其特征在于,所述方法包括:根据网络中的节点和节点信息,生成网络结构,所述节点包括原始节点和群组节点,所述节点信息包括原始节点间链接信息和原始节点与群组节点间链接信息;获取每个节点的初始背景向量和初始目标向量;以每个节点为起点进行随机游走,得到节点序列;根据所述节点序列,确定每个节点的节点频数;根据每个节点的初始背景向量和初始目标向量、所述节点序列以及每个节点的节点频数,确定每个节点的向量表示形式。2.根据权利要求1所述的方法,其特征在于,所述根据网络中的节点和节点信息,生成网络结构,包括:根据网络中的原始节点和所述节点信息中的原始节点链接信息,生成初始网络结构;将网络中的群组节点添加到所述初始网络结构中;根据所述节点信息中的原始节点与群组节点间链接信息,对所述初始网络结构中的原始节点与所述群组节点进行连接,得到所述网络结构。3.根据权利要求1所述的方法,其特征在于,所述获取每个节点的初始背景向量和初始目标向量,包括:对于任一节点,根据预设背景向量维度和选取条件,为所述节点每一维度上的元素选取一个实数,得到所述节点的初始背景向量;根据预设目标向量维度和所述选取条件,为所述节点每一维度上的元素选取一个实数,得到所述节点的初始目标向量;其中,所述选取条件为所述节点所有维度上的元素的绝对值之和等于预设数值。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述以每个节点为起点进行随机游走,得到节点序列,包括:对于任一节点,在以所述节点为起点进行随机游走的过程中,根据上一节点的节点类型,确定从所述上一节点向下一节点的游走概率;根据预设路径长度和所述游走概率进行随机游走,得到一个节点序列;以所述节点为起点进行预设数量次随机游走,得到预设数量个节点序列。5.根据权利要求4所述的方法,其特征在于,所述根据上一节点的节点类型,确定从所述上一节点向下一节点的游走概率,包括:如果所述上一节点的节点类型为群组节点,确定从所述上一节点a向所述下一节点b的游走概率其中,n为网络中与所述群组节点链接的原始节点的数量。6.根据权利要求4所述的方法,其特征在于,所述根据上一节点的节点类型,确定从所述上一节点向下一节点的游走概率,包括:如果所述上一节点的节点类型为原始节点,且所述上一节点和所述下一节点之间有链接边,确定从所述上一节点a向所述下一节点b的游走概率其中,Z为归一化参数,πa,b为节点类型参数;如果所述上一节点的节点类型为原始节点,且所述上一节点和所述下一节点之间没有链接边,确定从所述上一节点a向所述下一节点b的游走概率为0。7.根据权利要求1所述的方法,其特征在于,所述根据每个节点的初始背景向量和初始目标向量、所述节点序列以及每个节点的节点频数,确定每个节点的向量表示形式,包括:以包含2N+1个节点的预设长度窗口为滑动窗口,在所述节点序列上进行滑动,得到窗口序列,所述窗口序列包括2N+1个节点,N为正整数;将所述窗口序列中的第N+1个节点作为目标节点,将其余的2N个节点作为背景节点;将所述2N个背景节点的初始背景向量进行加权相加,得到背景加权向量;对每个节点的节点频数进行归一化,得到节点多项分布;根据所述节点多项分布,从所述网络结构中除所述目标节点之外的节点中选取指定节点;根据所述背景加权向量、所述目标节点的初始背景向量和初始目标向量,对所述目标节点的背景向量和目标向量进行迭代计算,得到所述目标节点的向量表示形式;根据所述背景加权向量、所述指定节点的初始背景向量和初始目标...

【专利技术属性】
技术研发人员:韩矞刘志斌唐杰陈谦刘潇刘德兵郑宇飞
申请(专利权)人:清华大学腾讯科技深圳有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1