一种基于双向距离网络嵌入的社交网络表示方法技术

技术编号:21571674 阅读:20 留言:0更新日期:2019-07-10 15:26
本发明专利技术提供一种基于双向距离网络嵌入的社交网络表示方法,属于数据挖掘与网络技术领域。本发明专利技术首先读取社交关系网络中的节点并进行编码;然后读取关注与被关注关系,分别为每一个节点生成窗口大小为k的上文邻居节点序列和下文邻居节点序列,并记录每个邻居节点到该节点的有向距离;构造三层网络嵌入模型;将节点编码集作为输入进行学习,并不断进行模型超参数的调整;最后将隐藏层的权重矩阵作为最终网络嵌入的结果,每一行的向量表示作为节点的向量表示。本发明专利技术解决了现有社交关系网络的结构和拓扑信息表示不准确,对真实社交关系的还原能力较低,将不能有效的处理网络数据并精准有效的控制事件的发展的问题。本发明专利技术可用于社交网络表示。

A Social Network Representation Method Based on Two-way Distance Network Embedding

【技术实现步骤摘要】
一种基于双向距离网络嵌入的社交网络表示方法
本专利技术涉及一种社交网络表示方法,属于数据挖掘与网络

技术介绍
许多复杂的系统是以网络结构的形式进行数据处理的,例如社交网络、生物网络和信息网络。众所周知,网络数据通常很复杂,因此难以处理,主要表现在高计算复杂性、低并行性和难以利用现有的机器学习、深度学习方法等方面。为了更有效的处理网络数据,首要的挑战就是找到高效的网络数据表示方法,使得上层的数据分析任务,如:数据挖掘、分析、预测等能够在有限的空间和时间上高效的进行。网络嵌入作为一种十分具有前景的网络表示方法,能够支持一系列的网络处理和分析任务,如:节点分类、节点聚类、网络可视化和连接关系预测等。相比传统的网络表示,首先网络嵌入能够将复杂的网络节点及其关系在较低的维度进行向量化表示,达到了降维的目的;然后,在保留网络结构和拓扑信息的同时能够去除噪声和冗余信息;最重要的是节点与节点之间的距离能够衡量相互关系并且可以并行化计算和应用到前沿的机器学习、深度学习算法中去。现有的网络嵌入方法,如微软唐建在2015年WWW会议上的论文“Line:Large-scaleinformationnetworkembedding”中提出的网络嵌入方法LINE、Grover在2016年第22届ACMSIGKDD会议上发表的论文“node2vec:ScalableFeatureLearningforNetworks”中的方法Node2Vector等在一些方面已经取得了很大的进展,如LINE在前人的基础上增加了二阶相似度,并且提出了一种边缘采样算法,提高了处理网络节点稀疏性的能力和大规模嵌入性能;Node2Vector在完全随机游走策略的基础上结合BFS(广度优先搜索)和DFS(深度优先搜索)思想进行了改进了邻居节点序列生成算法,能够较好的对网络结构中局部信息和全局信息进行有选择的保留。然而,这些方法在产生节点上下文的过程和构建学习模型的过程都没有考虑节点与节点之间边的方向和距离,经过实际研究,在一些领域,方向和距离这两个因素对网络嵌入的效果起着重要的作用,特别是在社交网络领域,方向代表着关注与被关注的关系,两种关系不能等价对待,正确区分两者的关系具有重要的意义,例如:在社交网络舆情监测控制中事件的蔓延往往是由被关注者流向关注者,及时的捕捉粉丝数目较多的“重要”节点对舆论控制来说是至关重要的,忽略节点之间的方向将不能精准有效的控制事件的发展。距离直接体现着节点与节点之间的亲疏关系,一般直接相连的两个节点要比间接相连(相隔一个或者多个节点)的节点更加亲密,忽略距离将导致网络嵌入的结果不能体现亲疏关系,社交关系网络的结构和拓扑信息的表示不准确,网络嵌入对真实社交关系的还原能力较低,不能有效的处理网络数据并精准有效的控制事件的发展,或进行一些后续任务;如:节点亲密度分析、社区划分等。
技术实现思路
本专利技术为解决现有网络数据表示技术没有考虑节点与节点之间边的方向和距离,从而社交关系网络的结构和拓扑信息表示不准确,网络嵌入对真实社交关系的还原能力较低,将不能有效的处理网络数据并精准有效的控制事件的发展的问题,提供了一种基于双向距离网络嵌入的社交网络表示方法。本专利技术所述一种基于双向距离网络嵌入的社交网络表示方法,通过以下技术方案实现:步骤一、读取社交关系网络中的节点,将节点进行唯一性编码,得到节点编码集;步骤二、读取社交关系网络中的关注与被关注关系,即节点与节点之间边的方向,分别为每一个节点生成窗口大小为k的上文邻居节点序列和下文邻居节点序列,并记录每个邻居节点到该节点的有向距离;所述上文邻居节点为直接或者间接关注当前节点的节点,所述下文邻居节点为当前节点直接或者间接关注的节点;步骤三、构造输入为节点的唯一性编码,输出为节点之间共现频率和有向距离预测值的三层网络嵌入模型Bidirectional-Node-Skip-Gram,该网络嵌入模型包括输入层、隐藏层和输出层;步骤四、将节点编码集作为输入,利用模型Bidirectional-Node-Skip-Gram进行学习,并不断根据窗口节点共现频率和有向距离进行模型超参数的调整;步骤五、将隐藏层的权重矩阵作为最终网络嵌入的结果,每一行的向量表示作为对应社交关系网络节点的向量表示。本专利技术最为突出的特点和显著的有益效果是:本专利技术所涉及的一种基于双向距离网络嵌入的社交网络表示方法,将社交网络中的用户与用户之间的关注与被关注关系抽象成网络节点的指向关系,双向距离的节点上下文窗口序列的生成策略可以通过参数控制来权衡网络结构的局部信息和全局信息,网络嵌入模型Bidirectional-Node-Skip-Gram综合考虑了节点的窗口共现频率和节点之间的有向距离,更好的保留了社交关系网络的结构和拓扑信息,提高了网络嵌入对真实社交关系的还原能力的同时,提升了网络嵌入后对网络数据处理的有效性和未知信息的推理能力,有利于精准有效的控制事件的发展;并且使用负采样算法提高学习的效果和速度,可以显著提升网路嵌入的效果和性能。附图说明图1为本专利技术流程图;图2为本专利技术中上、下文邻居节点序列示意图;图3为深度优先遍历(DFS)和广度优先遍历(BFS)示意图;图4为本专利技术中上文邻居节点序列生成策略示意图;图5为本专利技术中上文邻居节点序列生成策略示意图;图6为本专利技术中网络嵌入模型Bidirectional-Node-Skip-Gram结构示意图;图7为本专利技术中softmax函数曲线示意图;图8为将隐藏层的权重矩阵转换为向量表示示意图。具体实施方式具体实施方式一:结合图1对本实施方式进行说明,本实施方式给出的一种基于双向距离网络嵌入的社交网络表示方法,具体包括以下步骤:步骤一、读取社交关系网络中的节点,将节点进行唯一性编码,得到节点编码集;原始的社交关系网络包括节点集V以及有向边集其中vm,vn∈V,代表存在一条从节点vm指向vn的边,表示vm关注vn;步骤二、读取社交关系网络中的关注与被关注关系,即节点与节点之间边的方向(有向边),分别为每一个节点生成窗口大小为k的上文邻居节点序列和下文邻居节点序列,并记录每个邻居节点到该节点的有向距离;所述上文邻居节点为直接或者间接关注当前节点的节点,所述下文邻居节点为当前节点直接或者间接关注的节点;如图2所示,其中k代表节点上文和下文序列节点的个数均为k,vi当前中心节点,vi左边的k个节点是关注vi的节点,称之为vi的上文,vi右边的k个节点是vi关注的节点,称之为vi的下文。这里是基于“node2vec:ScalableFeatureLearningforNetworks”论文中的邻居节点生成序列方法进行改进,首先扩展普通的邻居节点至上文和下文邻居节点,其次,在原来只关注共现评率的基础上增加节点距离这一因素,此处将其命名为Bidirectional-Node-Walk包含双向距离的节点上下文窗口序列的生成策略;步骤三、构造输入为节点的唯一性编码,输出为节点之间共现频率和有向距离预测值的三层网络嵌入模型Bidirectional-Node-Skip-Gram,该网络嵌入模型包括输入层、隐藏层和输出层;其中,输入层为节点的唯一性编码;如独热(one-hot)编码:0,0,1,0,本文档来自技高网
...

【技术保护点】
1.一种基于双向距离网络嵌入的社交网络表示方法,其特征在于,具体包括以下步骤:步骤一、读取社交关系网络中的节点,将节点进行唯一性编码,得到节点编码集;步骤二、读取社交关系网络中的关注与被关注关系,即节点与节点之间边的方向,分别为每一个节点生成窗口大小为k的上文邻居节点序列和下文邻居节点序列,并记录每个邻居节点到该节点的有向距离;所述上文邻居节点为直接或者间接关注当前节点的节点,所述下文邻居节点为当前节点直接或者间接关注的节点;步骤三、构造输入为节点的唯一性编码,输出为节点之间共现频率和有向距离预测值的三层网络嵌入模型Bidirectional‑Node‑Skip‑Gram,该网络嵌入模型包括输入层、隐藏层和输出层;步骤四、将节点编码集作为输入,利用模型Bidirectional‑Node‑Skip‑Gram进行学习,并不断根据窗口节点共现频率和有向距离进行模型超参数的调整;步骤五、将隐藏层的权重矩阵作为最终网络嵌入的结果,每一行的向量表示作为对应社交关系网络节点的向量表示。

【技术特征摘要】
1.一种基于双向距离网络嵌入的社交网络表示方法,其特征在于,具体包括以下步骤:步骤一、读取社交关系网络中的节点,将节点进行唯一性编码,得到节点编码集;步骤二、读取社交关系网络中的关注与被关注关系,即节点与节点之间边的方向,分别为每一个节点生成窗口大小为k的上文邻居节点序列和下文邻居节点序列,并记录每个邻居节点到该节点的有向距离;所述上文邻居节点为直接或者间接关注当前节点的节点,所述下文邻居节点为当前节点直接或者间接关注的节点;步骤三、构造输入为节点的唯一性编码,输出为节点之间共现频率和有向距离预测值的三层网络嵌入模型Bidirectional-Node-Skip-Gram,该网络嵌入模型包括输入层、隐藏层和输出层;步骤四、将节点编码集作为输入,利用模型Bidirectional-Node-Skip-Gram进行学习,并不断根据窗口节点共现频率和有向距离进行模型超参数的调整;步骤五、将隐藏层的权重矩阵作为最终网络嵌入的结果,每一行的向量表示作为对应社交关系网络节点的向量表示。2.根据权利要求1所述一种基于双向距离网络嵌入的社交网络表示方法,其特征在于,步骤一中所述编码方式为独热编码或者二进制编码。3.根据权利要求2所述一种基于双向距离网络嵌入的社交网络表示方法,其特征在于,步骤二中所述上文邻居节点序列,生成过程中每一步游走都只关注逆向边;生成策略公式如下:其中,t为当前访问节点的上一个访问节点,x为可能访问的下一个节点;d+(t,x)表示从t顺着边的方向访问到x所经过的边的数目,d+(t,x)=0表示t顺着边的方向不能访问到x;α+p,q(t,x)表示上文邻居节点序列生成过程中上一个节点是t,下一个结点是x的概率;p为返回概率参数;q为离开概率参数。4.根据权利要求3所述一种基于...

【专利技术属性】
技术研发人员:朱东杰孙云栋杜海文王玉华李晓芳曲荣宁胡浩舒钰博吴峰孙一恒董爽爽张凯
申请(专利权)人:哈尔滨工业大学威海威海翰宝网络科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1