一种图流中针对节点的链路预测方法技术

技术编号:21432263 阅读:24 留言:0更新日期:2019-06-22 11:56
本发明专利技术公开了一种图流中针对节点的链路预测方法,包括:持续动态地对图流进行采样以得到样本图,并获得样本图中各节点的邻接点集合的索引结构作为对应节点的索引节点集;若目标节点未被查询过,则过滤掉图流中与其相似度为0的节点,从而得到由剩余节点构成的候选节点集;否则,获得上一查询时刻至当前查询时刻之间与目标节点的相似度增大的所有节点,并加入到上次查询到的节点集合中,从而得到候选节点集;根据样本图及索引节点集,计算候选节点集中各节点与目标节点的相似度,以筛选出与目标节点的相似度最高的top‑k个节点,从而完成针对目标节点的链路预测。本发明专利技术能够在图流中实现针对节点的链路预测,并提高链路预测的效率和准确率。

【技术实现步骤摘要】
一种图流中针对节点的链路预测方法
本专利技术属于流数据和动态图领域,更具体地,涉及一种图流中针对节点的链路预测方法。
技术介绍
在社交网络、推荐系统、生物学等领域,应用可表示为图流,即一种大规模的、高度动态的图结构。在图流中,节点和边以流的形式动态地到达和接收,且到达速度非常快。图流可以看做图和数据流的结合,因此类似于数据流,图流中的每条边只能被处理一次。在以图流表示的应用中,广泛使用到了链路预测的方法。由于真实世界的图流规模太大,很难存储在内存甚至是硬盘上,并且图流中的边只能被处理一次,传统的链路预测方法在图流场景中遇到了很大的挑战。首先,由于图流规模庞大,不仅会消耗大量的存储空间,在整个图流中进行链路预测会导致链路预测的效率不高,预测时会有一定程度的延迟,不能做到实时的链路预测。为解决由于图流规模庞大而导致的预测效率低的问题,现有的链路预测方法基本上都会对图流进行采样,以减少存储成本,并提升算法效率,但是,采样会丢失图的信息,这会导致在链路预测的准确性得不到保证。此外,现有的链路预测方法都是针对边的预测,即预测在未来最有可能出现的边,而在现实场景中,很多情况下需要针对节点进行预测,即给定一个节点,预测最有可能与该节点发生链接的top-k个节点,在这些应用场景下,传统的链路预测方法并不适用。
技术实现思路
针对现有技术的缺陷和改进需求,本专利技术提供了一种图流中针对节点的链路预测方法,其目的在于,在图流中实现针对节点的链路预测,并提高链路预测的效率和准确率。为实现上述目的,本专利技术提供了一种图流中针对节点的链路预测方法,包括:持续动态地对图流进行采样以得到样本图,并获得样本图中各节点的邻接点集合的索引结构作为对应节点的索引节点集;对于任意一个待查询的目标节点u,若目标节点u未被查询过,则过滤掉图流中与目标节点u的相似度为0的节点,从而得到由剩余节点构成的候选节点集;否则,获得上一查询时刻t1至当前查询时刻t2之间与目标节点u的相似度增大的所有节点,并加入到上一查询时刻t1查询到的节点集合KFNold中,从而得到候选节点集;根据时刻t2的样本图及对应的索引节点集,计算候选节点集中各节点与目标节点u的相似度,以从候选节点集中筛选出与目标节点u的相似度最高的top-k个节点(k-future-neighbors,下文简称为KFN),从而完成在时刻t2针对目标节点u的链路预测;其中,top-k为正整数。本专利技术在对图流进行采样得到样本图的同时,利用索引结构记录了图流更多的信息,因此能够在链路预测时更为准确的还原图流的真实情况,从而在提高链路预测效率的同时提高链路预测准确率;针对目标节点构建的候选节点集有效过滤掉了与目标节点的相似度为0的节点,并且基于候选节点集进行链路预测,因此能够有效提高链路预测的效率。进一步地,持续动态地对图流进行采样以得到样本图,包括:为每个节点设定一个[0,1]范围内的哈希值以表征各节点的优先级;哈希值越小,对应的优先级越大,且各节点的优先级互不相同;在任意一个采样时刻t,针对图流中的每一个节点vi,获得节点vi的所有邻接点中优先级最高的一个或多个邻接点,以采样得到节点vi的邻接点集合S(vi);由采样得到的所有节点的邻接点集合构成时刻t的样本图;其中,邻接点集合S(vi)的元素个数不超过预设的采样阈值L。进一步地,过滤掉图流中与目标节点u的相似度为0的节点,从而得到由剩余节点构成的候选节点集,包括:在时刻t2,获得目标节点u的索引节点集I(u);获得索引节点集I(u)中各节点在样本图中的邻接点集合,并将所获取到的邻接点集合求并集,从而得到候选节点集。对于未被查询过的目标节点,在针对目标节点构建候选节点集时,仅过滤掉其中与目标节点相似度为0的节点,一方面,由于图流中大部分节点与目标节点的相似度为0,过滤掉这样的节点,就能够过滤掉大部分的节点,有效提高链路预测的效率;另一方面,由于可使用的历史查询信息较少,仅过滤掉与目标节点相似度为0的节点,能够在提高链路预测效率的同时保证链路预测的准确率。更进一步地,若目标节点u未被查询过,则获取候选节点集的计算表达式为:cdd(u)={v|v∈S(q),q∈I(u)};其中,cdd(u)表示候选节点集,S(q)表示节点q在样本图中的邻接点集合。更进一步地,若目标节点u被查询过,则获取候选节点集的计算表达式为:其中,cdd(u)表示候选节点集,表示在上一查询时刻t1至当前查询时刻t2之间的时间段(t1,t2)内索引节点集I(u)中保持不变的节点的集合,表示在时间段(t1,t2)内新加入索引节点集I(u)的节点的集合,S(q)表示节点q在样本图中的邻接点集合,表示在时间段(t1,t2)内新加入邻接点集合S(q)的节点的集合。对于已被查询过的目标节点,上一次查询所得的节点集合中仅包含与目标节点相似度最高top-k个节点,在此基础之上构建当前查询的候选节点集,能够进一步缩小候选节点集,提高链路预测效率。进一步地,相似度为commonneighbor相似度;根据时刻t2的样本图及对应的索引节点集,计算候选节点集中各节点与目标节点u的相似度,包括:对于候选节点集中的每一个节点wj,在时刻t2,分别获得目标节点u的索引节点集I(u)和节点wj的索引节点集I(wj),并计算索引节点集I(u)的采样率η′(u)以及索引节点集I(wj)的采样率η′(wj),由此计算目标节点u与节点wj的commonneighbor相似度为:其中,索引节点集的采样率为采样过程中索引节点集保存邻接点的比例。上述计算相似度的方法,以节点之间的CommonNeighbor相似度为指标,由于采样图仅包含原始图流的部分信息,本专利技术利用索引结构和采样率进行计算,能够有效利用索引结构所保留的额外信息,并还原图流的真实情况,从而体高链路预测的准确率。更进一步地,对于任意一个索引节点集,其采样率为该索引节点集中具有最低优先级的节点所对应的哈希值。进一步地,相似度为基于节点聚集系数的相似度;根据时刻t2的样本图及对应的索引节点集,计算候选节点集中各节点与目标节点u的相似度,包括:对于候选节点集中的每一个节点wj,在时刻t2,分别获得目标节点u的索引节点集I(u)和节点wj的索引节点集I(wj);求索引节点集I(u)和索引节点集I(wj)交集,得到集合I′=I(u)∩I(wj);计算集合I′中每一个节点的节点聚集系数,以计算目标节点u和节点wj之间基于节点聚集系数的相似度为CCLP(u,wj)=∑v∈I′NCC(v);其中,NCC(v)表示节点v的节点聚集系数。上述算相似度的方法,以节点之间基于聚集系数的相似度为指标,由于采样图仅包含原始图流的部分信息,本专利技术利用索引结构进行计算,能够有效利用索引结构所保留的额外信息,从而体高链路预测的准确率。更进一步地,节点v的节点聚集系数NCC(v)的计算方式包括:在时刻t2,获得节点v的索引节点集I(v),以计算在采样图中节点v的所有邻接点之间的最大链路数为allPair=|I(v)|·|I(v)-1|;若allPair<N,则统计由节点v的邻接点彼此链接形成的链路数count1,以计算节点v的节点聚集系数为否则,从节点v的邻接点中随机选择N个节点对,并统计其中彼此链接本文档来自技高网...

【技术保护点】
1.一种图流中针对节点的链路预测方法,其特征在于,包括:持续动态地对图流进行采样以得到样本图,并获得所述样本图中各节点的邻接点集合的索引结构作为对应节点的索引节点集;对于任意一个待查询的目标节点u,若所述目标节点u未被查询过,则过滤掉所述图流中与所述目标节点u的相似度为0的节点,从而得到由剩余节点构成的候选节点集;否则,获得上一查询时刻t1至当前查询时刻t2之间与所述目标节点u的相似度增大的所有节点,并加入到上一查询时刻t1查询到的节点集合KFN

【技术特征摘要】
1.一种图流中针对节点的链路预测方法,其特征在于,包括:持续动态地对图流进行采样以得到样本图,并获得所述样本图中各节点的邻接点集合的索引结构作为对应节点的索引节点集;对于任意一个待查询的目标节点u,若所述目标节点u未被查询过,则过滤掉所述图流中与所述目标节点u的相似度为0的节点,从而得到由剩余节点构成的候选节点集;否则,获得上一查询时刻t1至当前查询时刻t2之间与所述目标节点u的相似度增大的所有节点,并加入到上一查询时刻t1查询到的节点集合KFNold中,从而得到候选节点集;根据所述时刻t2的样本图及对应的索引节点集,计算所述候选节点集中各节点与所述目标节点u的相似度,以从所述候选节点集中筛选出与所述目标节点u的相似度最高的top-k个节点,从而完成在所述时刻t2针对所述目标节点u的链路预测;其中,top-k为正整数。2.如权利要求1所述的图流中针对节点的链路预测方法,其特征在于,持续动态地对图流进行采样以得到样本图,包括:为每个节点设定一个[0,1]范围内的哈希值以表征各节点的优先级;哈希值越小,对应的优先级越大,且各节点的优先级互不相同;在任意一个采样时刻t,针对所述图流中的每一个节点vi,获得所述节点vi的所有邻接点中优先级最高的一个或多个邻接点,以采样得到所述节点vi的邻接点集合S(vi);由采样得到的所有节点的邻接点集合构成所述时刻t的样本图;其中,所述邻接点集合S(vi)的元素个数不超过预设的采样阈值L。3.如权利要求1所述的图流中针对节点的链路预测方法,其特征在于,过滤掉所述图流中与所述目标节点u的相似度为0的节点,从而得到由剩余节点构成的候选节点集,包括:在所述时刻t2,获得所述目标节点u的索引节点集I(u);获得所述索引节点集I(u)中各节点在所述样本图中的邻接点集合,并将所获取到的邻接点集合求并集,从而得到所述候选节点集。4.如权利要求3所述的图流中针对节点的链路预测方法,其特征在于,若所述目标节点u未被查询过,则获取所述候选节点集的计算表达式为:cdd(u)={v|v∈S(q),q∈I(u)};其中,cdd(u)表示所述候选节点集,S(q)表示节点q在所述样本图中的邻接点集合。5.如权利要求3所述的图流中针对节点的链路预测方法,其特征在于,若所述目标节点u被查询过,则获取所述候选节点集的计算表达式为:其中,cdd(u)表示所述候选节点集,表示在上一查询时刻t1至当前查询时刻t2之间的时间段(t1,t2)内所述索引节点集I(u)中保持不变的节点的...

【专利技术属性】
技术研发人员:赵峰肖洋徐涛金海桂向宇
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1