一种融合多模体信息的有向网络链路预测方法技术

技术编号:22649216 阅读:26 留言:0更新日期:2019-11-26 17:56
本发明专利技术公开了一种融合多模体信息的有向网络链路预测方法,其特征在于,包括如下步骤:S1.构建初始网络,并获取不存在连边的节点对列表;S2.随机选取初始网络数据中10%的连边作为测试集正样本,剩余90%的连边作为训练集,选取与测试集正样本等大的连边集合作为测试集负样本;S3.获得初始网络中个体对应的角色函数值;S4.得到每一节点对所对应的共同邻居的角色函数R

A link prediction method based on multi-mode information

The invention discloses a directed network link prediction method for integrating multi-mode body information, which is characterized by the following steps: S1. Constructing an initial network and obtaining a list of node pairs without connecting edges; S2. Randomly selecting 10% of the connecting edges in the initial network data as positive samples of the test set, 90% of the remaining connecting edges as training sets, and selecting large connecting edge sets such as positive samples of the test set The cooperation is the negative sample of the test set; S3. Get the role function value of the individual in the initial network; S4. Get the role function r of each node to the corresponding common neighbor

【技术实现步骤摘要】
一种融合多模体信息的有向网络链路预测方法
本专利技术涉及一种链路预测方法,具体说是一种融合多模体信息的有向网络链路预测方法。
技术介绍
链路预测是复杂网络领域一个重要的研究方向,所要处理的基本问题就是通过已知的网络节点以及网络结构等信息,预测网络中任意两个节点之间存在链接的可能性。通过链路预测不仅可以得到网络中不存在的边未来可能存在的可能性,也可以查找出网络中已存在的连边是否是虚假连边或是缺失连边。在基于网络结构的链路预测方法中,最常用是共同邻居相似性的方法。Liben-Nowellhe和Kleinberg发现基于节点的共同邻居的方法是预测准确性最好的方法之一。但是,节点之间的共同邻居指标不考虑节点之间的链接方向,无法直接应用于有向网络。预测边与共同邻居构成了闭合的三角形结构,在三角形结构的基础上考虑方向的问题,就构成了有向网络的局部结构,目前,对有向网络结构的研究一部分是基于这类局部结构进行的。基于局部结构进行的有向网络的链路预测中,目前最常用的是基于局部信息相似性的预测方法。真实的复杂网络中,个体之间的关系往往是不对等的,由这种不对等关系构成的网络就是有向网络。在有向网络的链路预测中使用模体来进行链路预测。模体指的是在真实网络中出现的数目远高于随机网络中出现的数目的对应子图。张千明等人提出了有向网络势理论,并发现满足势理论的模体结构具有更好的链路预测效果。但是在他们研究中只考虑了单个模体的链路预测情况,没有考虑到多模体的链路预测。基于模体结构的链路预测方法简单认为:每个节点对于模体构成的贡献值相同。但是,在真实的网络系统中,这种想法往往是不正确的。刘震等人在无向网络中基于共同邻居方法使用朴素贝叶斯模型统计了节点贡献值对网络的准确性的影响,发现基于朴素贝叶斯的预测准确性除了PB网络以外,其他的网络的预测能力都得到了提升;Wu等人在对无向加权网络的研究中提出了WLNBCN模型,将预测的节点对的共同邻居的权值作为角色函数考虑到链路预测当中,在不同程度上提高了链路预测的准确度。但是,在现有的有向网络的链路预测当中没有考虑到模体的预测边之外的节点贡献值对链路预测的影响。
技术实现思路
本申请提出一种融合多模体信息的有向网络链路预测方法,通过加入角色函数,使预测准确性得到提升,之后使用XGBoost将多个模体的共同影响进行链路预测,进一步提升了链路预测的准确性。为实现上述目的,本申请的技术方案为:一种融合多模体信息的有向网络链路预测方法,包括如下步骤:S1.通过原始有向网络数据构建初始网络,并获取不存在连边的节点对列表;S2.随机选取初始网络数据中10%的连边作为测试集正样本,剩余90%的连边作为训练集,从不存在连边的节点对列表中选取与测试集正样本等大的连边集合作为测试集负样本;S3.采用朴素贝叶斯模型算法获得初始网络中个体对应的角色函数值;S4.从初始网络中的第一节点对开始,根据节点对的共同邻居,得到每一节点对所对应的共同邻居的角色函数Rw列表;S5.从初始网络中的第一节点对开始,依次计算每对节点的共同邻居相似性指标CN,得到节点对的共同邻居数量;S6.根据节点对的共同邻居数量和节点对所对应的共同邻居的角色函数得到节点对的r'xy列表;S7.根据单个模体r'xy列表通过叠加的方式得到双模体的rxy的列表;或者将不同的单个模体得到的r'xy列表使用机器学习的方法XGBoost得到新的score列表。进一步的,使用XGBoost的方法计算所有模体之间的相关性,根据模体之间的相关性进行双模体链路预测的模体选择,得到的结果稳定性较好。进一步的,共同邻居相似性指标CN的计算方法为:针对无向无权网络,用Γ(a)表示节点a的邻居,Γ(b)表示节点b的邻居,则:CN(a,b)=|Γ(a)∩Γ(b)|节点a和节点b的相似性指标等于节点a的邻居节点与节点b的邻居节点重叠数量,即节点a和节点b的共同邻居数量;进而得出,针对有向无权网络,Γ(x)表示节点x指定方向上的的邻居,Γ(y)表示节点y指定方向上的的邻居;Oxy=|Γ(x)∩Γ(y)|Oxy表示节点x指定方向上的的邻居与节点y指定方向上的邻居节点重叠数量。进一步的,角色函数Rw值的计算方法为:Vw表示节点对(x,y)的所有共同邻居节点,公式中NΔw是节点vw的邻居中相互连接的节点对的数目,NΛw是节点vw的邻居中相互不连接的节点对的数目。进一步的,单个模体节点对的r'xy列表值的计算方法为:公式中其中MF=V(V-1)/2表示网络中所有可能存在的连边的数目,M=|ET|表示网络中真实存在的连边的数目,V为节点总数,E为网络中所有连边的集合。进一步的,双模体节点对的rxy列表值的计算方法为:其中,O1xy表示节点x1指定方向上的的邻居与节点y1指定方向上的邻居节点重叠数量,O2xy|表示节点x2指定方向上的的邻居与节点y2指定方向上的邻居节点重叠数量,Rv表示其中一个模体的角色函数值,Rw表示另一个模体的角色函数值。本专利技术由于采用以上技术方案,能够取得如下的技术效果:1.双模体的链路预测整体上相比于单模体的链路预测准确性在一定程度上有所提高。2.针对多个模体进行链路预测,考虑多个模体的共同影响,进一步提升了链路预测的准确性。3.本申请充分应用有向网络的结构特征,使链路预测准确性得到大大提升。附图说明图1为基于模体数量的链路预测与基于朴素贝叶斯的单模体链路预测的AUC比较示意图;图2为三阶模体和四阶模体的角色函数计算的结构图;图3基于双模体的链路预测图;图4基于XGBoost的模体之间的相关性显示图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施中的技术方案进行清楚、完整的描述,可以理解的是,所描述的实例仅仅是本专利技术的一部分实例,而不是全部的实施例。基于本专利技术的实施例,本领域的技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本实施例提供一种融合多模体信息的有向网络链路预测方法,网络用G(V,E)表示,其中V表示网络中节点集合,E表示网络中连边集合。通常将E分为两部分:训练集ET和测试集EP,有且ET∪EP=E。随机选取了10%的连边作为测试集正样本EP,剩余90%的连边作为训练集ET,又从不存在连边中选取与测试集正样本等大的连边集合作为测试集负样本具体步骤如下:S1.获取原始有向网络数据并构建初始网络,并获取不存在连边的节点对列表;S2.随机选取网络数据中10%的连边作为测试集正样本,剩余90%的连边作为训练集,从不存在连边的节点对列表中选取与测试集正样本等大的连边集合作为测试集负样本;S3.采用朴素贝叶斯模型算法获得网络中个体对应的角色函数值;S4.从网络中的第一节点对开始,根据节点对的共同邻本文档来自技高网
...

【技术保护点】
1.一种融合多模体信息的有向网络链路预测方法,其特征在于,包括如下步骤:/nS1.通过原始有向网络数据构建初始网络,并获取不存在连边的节点对列表;/nS2.随机选取初始网络数据中10%的连边作为测试集正样本,剩余90%的连边作为训练集,从不存在连边的节点对列表中选取与测试集正样本等大的连边集合作为测试集负样本;/nS3.采用朴素贝叶斯模型算法获得初始网络中个体对应的角色函数值;/nS4.从初始网络中的第一节点对开始,根据节点对的共同邻居,得到每一节点对所对应的共同邻居的角色函数R

【技术特征摘要】
1.一种融合多模体信息的有向网络链路预测方法,其特征在于,包括如下步骤:
S1.通过原始有向网络数据构建初始网络,并获取不存在连边的节点对列表;
S2.随机选取初始网络数据中10%的连边作为测试集正样本,剩余90%的连边作为训练集,从不存在连边的节点对列表中选取与测试集正样本等大的连边集合作为测试集负样本;
S3.采用朴素贝叶斯模型算法获得初始网络中个体对应的角色函数值;
S4.从初始网络中的第一节点对开始,根据节点对的共同邻居,得到每一节点对所对应的共同邻居的角色函数Rw列表;
S5.从初始网络中的第一节点对开始,依次计算每对节点的共同邻居相似性指标CN,得到节点对的共同邻居数量;
S6.根据节点对的共同邻居数量和节点对所对应的共同邻居的角色函数得到节点对的r'xy列表;
S7.根据单个模体r'xy列表通过叠加的方式得到双模体的rxy的列表;或者将不同的单个模体得到的r'xy列表使用机器学习的方法XGBoost得到新的score列表。


2.根据权利要求1所述一种融合多模体信息的有向网络链路预测方法,其特征在于,使用XGBoost的方法计算所有模体之间的相关性,根据模体之间的相关性进行双模体链路预测的模体选择。


3.根据权利要求1所述一种融合多模体信息的有向网络链路预测方法,其特征在于,共同邻居相似性指标CN的计算方法为:针对无向无权网络,用Γ(a)表示节点a的邻居,Γ(b)表示节点b的邻居,则:
CN(a,b)=|Γ(a)∩Γ(b)|
节点a和节点b的相似性指标等...

【专利技术属性】
技术研发人员:许小可刘亚芳毕学良
申请(专利权)人:大连民族大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1