The invention discloses a method and device for determining the vector representation form for nodes in a network, belonging to the field of network technology. The method includes: generating the network structure according to the information of nodes and nodes in the network; obtaining the initial background vector and the initial target vector of each node; random walking with each node as the starting point to get the sequence of nodes and determine the frequency of nodes of each node; advancing the background vector and target vector of each node. The vector representation of each node is obtained by iteration. The invention generates the network structure including the original node and the group node, and obtains the vector representation of each node including the original node and the group node by iterating the background vector and the target vector of each node. Because the vector representation based on the original node and the group node can not only measure the similarity between the original node, but also measure the similarity between the original node and the group node, so it has a wide range of applications.
【技术实现步骤摘要】
为网络中节点确定向量表示形式的方法及装置
本专利技术涉及网络
,特别涉及一种为网络中节点确定向量表示形式的方法及装置。
技术介绍
近年来,随着网络技术的发展,在线社交网络、学术网络等网络已经深入到用户生活的方方面面,成为用户获取信息、传播信息、交友、学术研究的重要途径。如果将在线社交网络中的用户或学术网络中的文章称为原始节点,将用户或文章组成的群组称为群组节点,由于原始节点间、原始节点与群组节点的相似度,对国家信息安全、社会稳定及学术发展有重要影响,因此,为了更好地研究这些网络,需要为网络中节点确定向量表示形式,进而根据网络中节点向量的表示形式进行度量。以采用DeepWalk方法为例,现有技术在为网络中节点确定向量表示形式时,可采用如下方式:根据原始节点和原始节点间链接信息,生成初始网络结构;以初始网络结构中的每个原始节点为起点,根据原始节点间的链接信息,沿着网络中原始节点之间的边进行随机游走,得到节点序列;基于skip-gram模型对节点序列进行训练,得到每个原始节点的向量表示形式。由于现有技术仅确定了原始节点的向量表示形式,基于所确定的向量表示形式只能度量原始节点间的相似度,因此,现有的确定方法应用范围较窄,具有一定的局限性。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种为网络中节点确定向量表示形式的方法。所述技术方案如下:一方面,提供了一种为网络中节点确定向量表示形式的方法,所述方法包括:根据网络中的节点和节点信息,生成网络结构,所述节点包括原始节点和群组节点,所述节点信息包括原始节点间链接信息和原始节点与群组节点间链接信息;获 ...
【技术保护点】
1.一种为网络中节点确定向量表示形式的方法,其特征在于,所述方法包括:根据网络中的节点和节点信息,生成网络结构,所述节点包括原始节点和群组节点,所述节点信息包括原始节点间链接信息和原始节点与群组节点间链接信息;获取每个节点的初始背景向量和初始目标向量;以每个节点为起点进行随机游走,得到节点序列;根据所述节点序列,确定每个节点的节点频数;根据每个节点的初始背景向量和初始目标向量、所述节点序列以及每个节点的节点频数,确定每个节点的向量表示形式。
【技术特征摘要】
1.一种为网络中节点确定向量表示形式的方法,其特征在于,所述方法包括:根据网络中的节点和节点信息,生成网络结构,所述节点包括原始节点和群组节点,所述节点信息包括原始节点间链接信息和原始节点与群组节点间链接信息;获取每个节点的初始背景向量和初始目标向量;以每个节点为起点进行随机游走,得到节点序列;根据所述节点序列,确定每个节点的节点频数;根据每个节点的初始背景向量和初始目标向量、所述节点序列以及每个节点的节点频数,确定每个节点的向量表示形式。2.根据权利要求1所述的方法,其特征在于,所述根据网络中的节点和节点信息,生成网络结构,包括:根据网络中的原始节点和所述节点信息中的原始节点链接信息,生成初始网络结构;将网络中的群组节点添加到所述初始网络结构中;根据所述节点信息中的原始节点与群组节点间链接信息,对所述初始网络结构中的原始节点与所述群组节点进行连接,得到所述网络结构。3.根据权利要求1所述的方法,其特征在于,所述获取每个节点的初始背景向量和初始目标向量,包括:对于任一节点,根据预设背景向量维度和选取条件,为所述节点每一维度上的元素选取一个实数,得到所述节点的初始背景向量;根据预设目标向量维度和所述选取条件,为所述节点每一维度上的元素选取一个实数,得到所述节点的初始目标向量;其中,所述选取条件为所述节点所有维度上的元素的绝对值之和等于预设数值。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述以每个节点为起点进行随机游走,得到节点序列,包括:对于任一节点,在以所述节点为起点进行随机游走的过程中,根据上一节点的节点类型,确定从所述上一节点向下一节点的游走概率;根据预设路径长度和所述游走概率进行随机游走,得到一个节点序列;以所述节点为起点进行预设数量次随机游走,得到预设数量个节点序列。5.根据权利要求4所述的方法,其特征在于,所述根据上一节点的节点类型,确定从所述上一节点向下一节点的游走概率,包括:如果所述上一节点的节点类型为群组节点,确定从所述上一节点a向所述下一节点b的游走概率其中,n为网络中与所述群组节点链接的原始节点的数量。6.根据权利要求4所述的方法,其特征在于,所述根据上一节点的节点类型,确定从所述上一节点向下一节点的游走概率,包括:如果所述上一节点的节点类型为原始节点,且所述上一节点和所述下一节点之间有链接边,确定从所述上一节点a向所述下一节点b的游走概率其中,Z为归一化参数,πa,b为节点类型参数;如果所述上一节点的节点类型为原始节点,且所述上一节点和所述下一节点之间没有链接边,确定从所述上一节点a向所述下一节点b的游走概率为0。7.根据权利要求1所述的方法,其特征在于,所述根据每个节点的初始背景向量和初始目标向量、所述节点序列以及每个节点的节点频数,确定每个节点的向量表示形式,包括:以包含2N+1个节点的预设长度窗口为滑动窗口,在所述节点序列上进行滑动,得到窗口序列,所述窗口序列包括2N+1个节点,N为正整数;将所述窗口序列中的第N+1个节点作为目标节点,将其余的2N个节点作为背景节点;将所述2N个背景节点的初始背景向量进行加权相加,得到背景加权向量;对每个节点的节点频数进行归一化,得到节点多项分布;根据所述节点多项分布,从所述网络结构中除所述目标节点之外的节点中选取指定节点;根据所述背景加权向量、所述目标节点的初始背景向量和初始目标向量,对所述目标节点的背景向量和目标向量进行迭代计算,得到所述目标节点的向量表示形式;根据所述背景加权向量、所述指定节点的初始背景向量和初始目标...
【专利技术属性】
技术研发人员:韩矞,刘志斌,唐杰,陈谦,刘潇,刘德兵,郑宇飞,
申请(专利权)人:清华大学,腾讯科技深圳有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。