不确定图上个性化网页排名的快速检索方法及系统技术方案

技术编号:34458677 阅读:27 留言:0更新日期:2022-08-06 17:12
本发明专利技术公开了一种不确定图上个性化网页排名的快速检索方法及系统,该方法包括以下步骤:通过不确定边的信息计算得到不确定图的所有可能世界;通过ilu分解,计算得到并保存矩阵R的部分行;给定种子节点作为个性化PageRank(PPR)的一次查询,使用该方法获取该查询下各节点的PPR分数;对结果排序并获取分数最高的k个节点。本发明专利技术提供了不确定图上个性化网页排名的计算方法,在PPR的计算方法上进行了改进,与传统方法相比,计算速度更快且准确性高,提升了在不确定图较大或图的不确定性较大时的查询性能。查询性能。查询性能。

【技术实现步骤摘要】
不确定图上个性化网页排名的快速检索方法及系统


[0001]本专利技术涉及检索
,特别是一种不确定图上个性化网页排名的快速检索方法及系统。

技术介绍

[0002]图是表征对象间联系以及联系模式的一种强有力的通用方式,在数学、计算机科学、物理学、社会科学、生物学等领域中的很多研究对象都可以抽象成图,其中Internet是最广为人知并且也是研究得最多的图。
[0003]谷歌提出了一种计算节点排名的算法,PageRank。随着谷歌搜素引擎的流行,PageRank也成为了一种非常热门的图节点排名算法,并广泛地应用于研究Web网页、社交网络、基因与疾病的联系、蛋白质反应、交通预测等等。相比于其他的排名方法,PageRank算法获得的结果更难以被伪造。
[0004]然而,在实际应用和研究中遇到的图规模往往非常庞大,而且由于信息缺失、数据收集中的误差、数据隐私保护等原因,图数据充满了不确定性。最近有一种新的不确定边模型——互斥边被提出,即我们确定有一条边一定存在,但却无法确定该边指向的目标节点哪个。包含不确定边的图即为不确定图。
[0005]目前计算不确定图的个性化PageRank方法主要有三种:一是枚举法,对不确定图的所有可能世界分别计算PPR分数,再求平均值,该方法也是定义的方法,得到的结果也是最准确的;二是collapse法,对所有可能世界的转移矩阵取平均值,再进行PPR计算;三是flatten法,即先将不确定边转化为确定边,再进PPR计算;四是最近提出的uppr,将不确定图拆为确定部分和不确定部分,并分别通过分区、计算概率等方式处理。
[0006]但是,一个只要m条不确定边,每个不确定边只有k个目标节点的互斥边不确定图,就可以分解为k
m
个可能世界。因此目前的方法中,枚举法和collapse法效率非常低,flatten法虽然提高了速度,但精度较低。特别是在个性化PageRank中,种子节点在不确定边附近时,collapse法和flatten法的误差都会比较大,uppr在处理大图时仍比较耗时,空间复杂度较高,且精度也一般。

技术实现思路

[0007]本专利技术的目的在于提供一种不确定图上个性化网页排名的快速检索方法及系统,能够在较短的时间内完成计算,同时能够保证很高的精度,满足查询需求。
[0008]实现本专利技术目的的技术解决方案为:第一方面,本专利技术提供一种不确定图上个性化网页排名的快速检索方法,包括以下步骤:
[0009]步骤1,通过不确定边的信息计算得到不确定图的所有可能世界,其中,可能世界为由不确定边所决定的不确定图的所有的确定形式的情况;
[0010]步骤2,通过ilu分解,计算得到系统矩阵的逆R的部分行,其中系统矩阵为I

cQ,由图的确定部分的转移矩阵Q所确定,I为单位矩阵,c为随机游走的重启概率;
[0033][0034]其中,I为单位矩阵,Q为不确定图的确定部分的转移矩阵,c为随机游走的重启概率,V为源节点的集合,R
V,*
为矩阵R的与V中节点相关的行,E为与源节点有关的单位向量组成的l
×
n的矩阵,l为V的长度,n为转移矩阵Q的大小。
[0035]步骤3,给定种子节点作为个性化PageRank的一次查询,获取该查询下各节点的PPR分数;具体步骤如下:
[0036]步骤3.1,根据选取的种子节点集合S,计算图的确定部分的个性化PageRank分数
[0037]p0=cQp0+(1

c)s
[0038]其中,s为由种子节点确定的起始向量,且当节点v
i
∈S时,其他情况时s
i
=0;
[0039]步骤3.2,对生成的其他所有可能世界,根据初始的PPR分数,计算得到其他所有可能世界的中间向量h和h',并对他们进行求和,分别得到h
sum
和h'
sum
,对第i个可能世界,计算如下:
[0040][0041]h
sum
=h
sum
+h
[0042]其中,D为由图节点出度构成的对角矩阵,x
i
、y
i
分别为当前可能世界的源节点和对应的目标节点,其中不包括目标为空的不确定边,和为根据x
i
和y
i
中的节点对矩阵R的行和列进行取值得到的l
×
l的矩阵,为x
i
中的节点在图的确定部分的PPR分数向量,h
sum
为各可能世界下的状态向量h的和;
[0043][0044]h'
sum
=h'
sum
+h'
[0045]其中,为单位矩阵I中与y
i
中的节点相关的列,h为长度为l的各可能世界的状态向量,h'为状态向量h中各值到长度为n的向量的映射;
[0046]步骤3.3,计算得到所有可能世界的PPR分数相对p0的增量的和
[0047]z0=ch'
sum

cQ
*,V
h
sum
[0048]z
k
=U
‑1L
‑1z0[0049]其中,Q
*,V
为图的确定部分的转移矩阵Q的与V中节点相关的列,z0为计算增量之和z
k
的初始值;
[0050]步骤3.4,根据所有的可能世界的结果计算得到不确定图的最终的PPR分数
[0051]p=p0+z
k
/n
pw
[0052]其中,n
pw
为可能世界的数量。
[0053]步骤4,对结果排序并获取分数最高的k个节点。
[0054]本专利技术还提供一种不确定图上个性化网页排名的快速检索系统,包括:
[0055]第一模块,通过不确定边的信息计算得到不确定图的所有可能世界,其中,可能世界为由不确定边所决定的不确定图的所有的确定形式的情况;
[0056]第二模块,通过ilu分解,计算得到系统矩阵的逆R的部分行,其中系统矩阵为I

cQ,由图的确定部分的转移矩阵Q所确定,I为单位矩阵,c为随机游走的重启概率;
[0057]第三模块,给定种子节点作为个性化PageRank的一次查询,获取该查询下各节点的PPR分数;
[0058]第四模块,用于对结果排序并获取分数最高的k个节点。
[0059]上述各模块的具体实现方法与前述的快速检索方法部分相同,此处不再赘述。
[0060]下面结合附图及具体实施例对本专利技术作进一步详细描述。
[0061]实施例
[0062]由于真实图节点较多,不易观察其分布,这里使用一个小图进行计算讲解。
[0063]如图1,一个有3条不确定边的不确定图,其中实线代表确定边,虚线代表不确定边中可能存在的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不确定图上个性化网页排名的快速检索方法,其特征在于,包括以下步骤:步骤1,通过不确定边的信息计算得到不确定图的所有可能世界,其中,可能世界为由不确定边所决定的不确定图的所有的确定形式的情况;步骤2,通过ilu分解,计算得到系统矩阵的逆R的部分行,其中系统矩阵为I

cQ,由图的确定部分的转移矩阵Q所确定,I为单位矩阵,c为随机游走的重启概率;步骤3,给定种子节点作为个性化PageRank的一次查询,获取该查询下各节点的PPR分数;步骤4,对结果排序并获取分数最高的k个节点。2.根据权利要求1所述的不确定图上个性化网页排名的快速检索方法,其特征在于,步骤1所述的不确定边,包括一个源节点和多个目标节点,代表该边的目标为目标节点中的1个或0个,当目标为0个时,该边不存在。3.根据权利要求1所述的不确定图上个性化网页排名的快速检索方法,其特征在于,步骤2所述的ilu分解,为仅选择主元的分解,且降调公差droptol设置为0.1。4.根据权利要求1所述的不确定图上个性化网页排名的快速检索方法,其特征在于,步骤2包括如下步骤:步骤2.1,对系统矩阵进行ilu分解,得到L矩阵和U矩阵LU=I

cQ;步骤2.2,求系统矩阵的逆R的部分行R
V,*
=EU
‑1L
‑1其中,V为源节点的集合,R
V,*
为矩阵R的与V中节点相关的行,E为与源节点有关的单位向量组成的l
×
n的矩阵,l为V的长度,n为转移矩阵Q的大小。5.根据权利要求1所述的不确定图上个性化网页排名的快速检索方法,其特征在于,步骤3包括如下步骤:步骤3.1,根据选取的种子节点集合S,计算图的确定部分的个性化PageRank分数p0=cQp0+(1

c)s其中,s为由种子节点确定的起始向量,且当节点v
i
∈S时,其他情况时s
i
=0;步骤3.2,对生成的其他所有可能世界,根据初始的PPR分数,计算得到其他所有可能世界的中间向量h和h',并对他们进行求和,分别得到h
sum
和h'
sum
,对第i个可能世界,计算如下:h
sum
=h
sum
+h其中,D为由图节点出度构成的对角矩阵,x
i
、y
i
分别为当前可能世界的源节点和对应的目标节点,其中不包括目标为空的不确定边,和为根据x
i
和y
i
中的节点...

【专利技术属性】
技术研发人员:俞唯仁徐建勋袁龙
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1