网页重要性的确定方法技术

技术编号:39331603 阅读:16 留言:0更新日期:2023-11-12 16:07
本发明专利技术公开了一种网页重要性的确定方法,包括:将网页以及网页之间的关系转化为图结构,获取在所述概率量传播过程完成后收到的来自目标节点t、并最终留在节点k的概率量的估计;将节点k更新为图结构中的另一节点;重复获取图结构中的节点k收到的来自目标节点t、并最终留在节点k的概率量的步骤,直至得到图结构中所有节点k在收到的来自目标节点t、并最终留在节点k的概率量的估计;根据图结构中所有所述节点收到的来自目标节点t、并最终留在节点k的概率量,得到目标节点t的佩奇排名分值的估计,确定与目标节点t对应的网页的重要性。本发明专利技术提供的网页重要性的确定方法,能够更高效地完成一个指定网页佩奇排名的计算。完成一个指定网页佩奇排名的计算。完成一个指定网页佩奇排名的计算。

【技术实现步骤摘要】
网页重要性的确定方法


[0001]本专利技术涉及计算机
,特别是关于一种网页重要性的确定方法。

技术介绍

[0002]随着信息时代万维网上信息的急速增长、百度、谷歌等搜索引擎厂商运营规模的迅猛发展,以及信息检索技术在社会发展中的广泛渗透和普遍应用,如何高效地计算万维网上一个指定网页的重要性,已成为各搜索引擎厂商、高校、研究院等多类型机构重点关注的问题之一。对于网页重要性得分的计算,现有以百度、谷歌等为代表的搜索引擎普遍使用佩奇排名这一网页重要性衡量指标来量化万维网上各网页的重要性,其计算目标可具体化为计算万维网上一个指定网页的佩奇排名分值。
[0003]但是,由于当今万维网上存储信息的规模巨大,现有计算万维网上一个指定网页佩奇排名分值的方法运行效率不高,难以支持超大规模的万维网数据。
[0004]公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

技术实现思路

[0005]本专利技术的目的在于提供一种网页重要性的确定方法,其能够在优于现有工作所需时间消耗的前提下,更准确地完成一个指定网页佩奇排名的计算,进而可以更高效地完成对该网页重要性的衡量。
[0006]为实现上述目的,本专利技术提供了一种网页重要性的确定方法,包括:将网页以及网页之间的关系转化为图结构,其中,图结构G中包括n个与所述网页对应的节点k以及多条与所述网页间的关系对应的边,目标网页对应为图结构中的目标节点t
[0007]获取在所述概率量传播过程完成后收到的来自目标节点t、并最终留在节点k的概率量的估计其中,所述节点k为图结构中的任一节点;
[0008]将节点k更新为图结构中n个节点的另一节点;
[0009]重复获取图结构中的节点k收到的来自目标节点t、并最终留在节点k的概率量的估计的步骤,直至得到图结构中所有节点k收到的来自目标节点t、并最终留在节点k的概率量的估计;
[0010]根据图结构中所有所述节点k收到的来自目标节点t、并最终留在节点k的概率量的估计,得到目标节点t的佩奇排名分值的估计
[0011]根据所述目标节点t的佩奇排名分值的估计确定与所述目标节点t对应的目标网页的重要性。
[0012]在一优选的实施方式中,所述根据图结构中所有所述节点k在所述概率量传播过程中收到的来自目标节点t、并最终留在节点k的概率量的估计,得到目标节点t的佩奇排名分值的估计包括:
[0013]根据公式一计算所述公式一为:
[0014][0015]其中,d
t
为图结构上目标节点t的邻居数,d
k
为图结构上节点k的邻居数。
[0016]在一优选的实施方式中,所述获取在所述概率量传播过程完成后收到的来自目标节点t、并最终留在节点k的概率量的估计之前,还包括
[0017]步骤S101,获取在时刻i

1接收到传播概率的全部节点,其中,i为[1,L]范围内的整数且i的初始值为1,L为概率量传播的最远步长;
[0018]步骤S102,选择在时刻i

1接收到传播概率的全部节点中的一个作为时刻i的采样节点u;
[0019]步骤S103,获取时刻i的采样节点u以及所述时刻i的采样节点u在时刻i

1接收到的来自时刻i

1的采样节点的传播概率;
[0020]步骤S104,根据预设条件以及时刻i的采样节点u在时刻i

1接收到的来自时刻i

1的采样节点的传播概率,将时刻i的采样节点u的所有邻居节点v或所有邻居节点v中的一部分节点w作为时刻i+1的采样节点,并计算时刻i的采样节点u传递到时刻i+1的采样节点的传播概率;
[0021]步骤S105,根据时刻i的采样节点u传递到时刻i+1的采样节点的概率对时刻i+1的采样节点在概率量传播过程中收到的来自时刻i的采样节点、并最终留在时刻i+1的采样节点的概率量的估计进行更新;
[0022]步骤S106,选择在时刻i

1接收到传播概率的全部节点中的另一个节点作为时刻i的采样节点;重复步骤S103

步骤S105,直至在时刻i

1接收到传播概率的每个节点都被选择作为时刻i的采样节点过,将当前时刻i更新为i+1;
[0023]步骤S107,重复步骤S101

步骤S106的步骤,直至当前时刻i更新为L后停止。
[0024]在一优选的实施方式中,预设条件包括第一预设条件,所述根据预设条件以及时刻i的采样节点u在时刻i

1接收到的来自时刻i

1的采样节点的传播概率,将时刻i的采样节点u的所有邻居节点v或所有邻居节点v中的一部分节点w作为时刻i+1的采样节点,并计算时刻i的采样节点u传递到时刻i+1的采样节点的传播概率,包括:
[0025]若时刻i的采样节点u满足第一预设条件,则将时刻i的采样节点u的所有邻居节点v作为时刻i+1的采样节点,其中第一预设条件为:(1

α)
·
其中θ是根据实际应用场景指定的估计误差参数,取值范围为θ∈(0,1);
[0026]时刻i的采样节点传递到时刻i+1的采样节点的概率通过公式二计算,所述公式二为:
[0027][0028]其中,为时刻i的采样节点u在时刻i

1接收到的来自时刻i

1的采样节点的传播概率,d
u
为图结构上采样节点u的邻居数。
[0029]在一优选的实施方式中,预设条件包括第一预设条件以及第二预设条件,所述根
据预设条件以及时刻i的采样节点u在时刻i

1接收到的来自时刻i

1的采样节点的传播概率,将时刻i的采样节点u的所有邻居节点v或所有邻居节点v中的一部分节点w作为时刻i+1的采样节点,并计算时刻i的采样节点u传递到时刻i+1的采样节点的传播概率,还包括:
[0030]若时刻i的采样节点u不满足第一预设条件但满足第二预设条件,则从时刻i的采样节点u的所有邻居节点v中采样出邻居节点w作为时刻i+1的采样节点,所述第二预设条件为:
[0031]时刻i的采样节点u传递到时刻i+1的采样节点的概率通过公式三计算,所述公式三为:
[0032][0033]在一优选的实施方式中,所述根据时刻i的采样节点u传递到时刻i+1的采样节点的概率对时刻i+1的采样节点在概率量传播过程中收到的来自时刻i的采样节点、并最终留在时刻i+1的采样节点的概率量的估计进行更新包括:
[0034]按照公式四对时刻i+1的采样节点在概率量传播过程中收到的来自时刻i的采样节点、并最终留在时刻i+1的采样节点的概率量的估计进行更新,所述公式四为:
...

【技术保护点】

【技术特征摘要】
1.一种网页重要性的确定方法,其特征在于,包括:将网页以及网页之间的关系转化为图结构,其中,图结构G中包括n个与所述网页对应的节点k以及多条与所述网页间的关系对应的边,目标网页对应为图结构中的目标节点t;获取在所述概率量传播过程完成后收到的来自目标节点t、并最终留在节点k的概率量的估计其中,所述节点k为图结构中的任一节点;将节点k更新为图结构中n个节点的另一节点;重复获取图结构中的节点k收到的来自目标节点t、并最终留在节点k的概率量的估计的步骤,直至得到图结构中所有节点k收到的来自目标节点t、并最终留在节点k的概率量的估计;根据图结构中所有所述节点k收到的来自节点t、并最终留在节点k的概率量的估计,得到目标节点t的佩奇排名分值的估计根据所述目标节点t的佩奇排名分值的估计确定与所述目标节点t对应的目标网页的重要性。2.根据权利要求1所述的确定方法,其特征在于,所述根据图结构中所有所述节点k在所述概率量传播过程中收到的来自节点t、并最终留在节点k的概率量的估计,得到节点t的佩奇排名分值的估计包括:根据公式一计算所述公式一为:其中,d
t
为图结构上目标节点t的邻居数,d
k
为图结构上节点k的邻居数。3.根据权利要求1所述的确定方法,其特征在于,所述获取在所述概率量传播过程完成后收到的来自目标节点t、并最终留在节点k的概率量的估计之前,还包括步骤S101,获取在时刻i

1接收到传播概率的全部节点,其中,i为[1,L]范围内的整数且i的初始值为1,L为概率量传播的最远步长;步骤S102,选择在时刻i

1接收到传播概率的全部节点中的一个作为时刻i的采样节点u;步骤S103,获取时刻i的采样节点u以及所述时刻i的采样节点u在时刻i

1接收到的来自时刻i

1的采样节点的传播概率;步骤S104,根据预设条件以及时刻i的采样节点u在时刻i

1接收到的来自时刻i

1的采样节点的传播概率,将时刻i的采样节点u的所有邻居节点v或所有邻居节点v中的一部分节点w作为时刻i+1的采样节点,并计算时刻i的采样节点u传递到时刻i+1的采样节点的传播概率;步骤S105,根据时刻i的采样节点u传递到时刻i+1的采样节点的概率对时刻i+1的采样节点在概率量传播过程中收到的来自时刻i的采样节点、并最终留在时刻i+1的采样节点的概率量的估计进行更新;步骤S106,选择在时刻i

1接收到传播概率的全部节点中的另一个节点作为时刻i的采样节点;重复步骤S103

步骤S105,直至在时刻i

1接收到传播概率的每个节点都被选择作
为时刻i的采样节点过,将当前时刻i更新为i+1;步骤S107,重复步骤S101

步骤S106的步骤,直至当前时刻i更新为L后停止。4.根据权利要求3所述的确定方法,其特征在于,预设条件包括第一预设条件,所述根据预设条件以及时刻i的采样节点u在时刻i

1接收到的来自时刻i

1的采样节点的传播概率,将时刻i的采样节点u的所有邻居节点v或所有邻居节点v中的一部分节点w作为时刻i+1的采样节点,并计算时刻i的采样节点u传递到时刻i+1的采样节点的传播概率,包括:若时刻i的采样节点u满足第一预设条件,则将时刻i的采样节点u的所有邻...

【专利技术属性】
技术研发人员:魏哲巍王涵之
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1