当前位置: 首页 > 专利查询>吉林大学专利>正文

基于超链接来源分析的网页排名方法技术

技术编号:8300875 阅读:634 留言:0更新日期:2013-02-07 04:27
一种基于超链接来源分析的网页排名方法,包括下列主要步骤:计算每个网页的k-近邻集合,计算每对网页入链来源的相似性,计算万维网的超链接权重矩阵,计算各网页的权威性,根据网页的权威性对网页排名。本发明专利技术为基于链接的网页排名提供了一种全新方法,与现有同类方法相比,本发明专利技术具有如下主要优点:(1)计算高效,易于实现;(2)参数少且易于设置,不需要种子页面集合;(3)在寻找优质页面和抑制网页排名作弊两方面均表现出更好的性能。

【技术实现步骤摘要】

本专利技术属于信息检索领域,尤其涉及到基于超链接分析的网页排名计算方法。
技术介绍
互联网飞速发展的同时,互联网上的信息量也呈爆炸式增长。用户要从海量的资源中寻找到对自己有帮助的信息,大都需要依靠搜索引擎的帮助。搜索引擎可以根据用户的搜索需求,从互联网中找到与需求相关的信息返回给用户。通过对大量用户行为的统计,在搜索引擎为用户返回的结果中,用户只对前几页的内容感兴趣。因此,搜索引擎都具备一个网页排名算法用于对将要返回给用户的结果进行排序,之后再将排序后的结果返回给用户。其目的是希望将最有价值的网页排在最前面,使用户只需浏览前几页的信息就能找到对自己有用的资源。排名算法性能的优劣将会直接影响搜索引擎的服务质量和用户的搜索 体验。另一方面,搜索引擎正面临着日益严重的网页作弊问题一网站创建者利用现有排名算法的缺陷,通过欺骗手段达到虚假提高网站中网页排名的目的。作弊网页质量不高,甚至包含虚假信息,严重影响了搜索服务质量。随着基于链接排名算法的广泛应用,基于链接的作弊己成为网页作弊的主要形式,如链接交换、构造链接农场和操纵子结点作弊等等。因此,排名算法和作弊检测一直都是搜索引擎研究中的热点问题。由Brin和Page提出的PageRank算法以及Kleinberg提出的HITS算法是最著名的两种基于链接结构的网页排名算法。PageRank算法认为一个网页被高质量网页指向的次数越多,该网页的质量也就越高。其在现实中应用十分广泛,受到了学者们的关注与研究。HITS算法认为每个网页具备两种属性权威性(authority)和中心性(hub)。权威性高的网页包含了用户需要的信息资源,而中心性高的页面中包含了很多指向高权威性网页的链接。之后,有很多学者对这两种算法进行了改进。1998年,Chakrabarti S提出的ARC (Automatic Resource Compilation)算法通过锚文本及锚文本的上下文中包含的查询关键词的数量为其对应的链接分配权值,解决了 HITS算法容易出现的“主题漂移”问题。2000 年,Lemple 和 Moran 提出 SALSA (Stochastic Approach for Link-StructureAnalysis)算法,将随机游走模型应用到了 HITS算法中,同样解决了 “主题漂移”问题,并且减少了算法的运行时间。2000年,Bharat提出Hilltop算法,该算法不完全依赖PageRank得分去寻找权威页面,这样可以有效避免链接作弊带来的影响,提高了主题相关性。2002 年,来自斯坦福的 HaveIiwala对PageRank进行改进,提出 TSPR(Topick_SensitivePageRank)算法。该算法基于ODP (Open Directory Project)中收录的网页,对每个目录主题都求得一个PageRank得分向量,同样增强了排名的主题相关性。针对链接作弊检测,研究者将信任传播(trust diffusion)引入到排名算法中。2004年,Gyangiy等人提出了 TrustRank算法。算法认为高质量的网页很少指向不好的网页。算法需要先挑选出一个页面种子集作为可信网页,为其分配初始信任值。信任值沿链接向下传递,最终根据网页的信任值判断网页的可信程度。但算法结果易受种子集的影响。2006年,Wu等人运用类似Topick-Sensitive PageRank的方法对TrustRank进行了改进,提出Topick TrustRank算法。该算法仍旧依靠ODP的主题分类,针对每个主题中的种子集都对网络进行一次TrustRank运算,这样一个网页就会有多个信任度得分,每个得分对应一种主题,最后综合这些得分作为页面信任度的最终得分。2006年,Krishnan提出了一种与TurstRank正好相反的算法Anti_TrustRank。该算法的传播源是作弊页面集合,其思想是如果一个网页信任了一个作弊网页,那么这个网页应该也是不值得信任的。与此类似的还有BadRank算法。考虑到信任度与非信任度都可以在网络中传播,Wu等人又提出一种结合两者的算法,让信任度与非信任度同时在网络中传播。网页将会得到针对两个属性的得分,最终综合这两个得分作为判断依据。此外,还有一些利用用户数据和物理学模型的其它作弊检测算法。2007年,Yang等人借鉴物理学中的热扩散模型提出了 DiffusionRank算法。算法将一个网页的得分看做热量,网页间的链接看作可以传递热量的管道,用热量在网络上的传播来模拟得分的传播。2008年,Liu等人提出BrowseRank算法,放弃使用网络中的固有链接,而使用由用户浏览行为构成的链接计算页面排名,使得链接作弊无法实现。2009年,Kaul等人提出的AIR(Affinity Index Ranking)算法将网络模拟成了电路。该方法用电流模拟页面间的投·票,将页面自身的电位值作为页面的得分,页面间的链接看作一个二极管,由于二极管具有单向导电的特性,所以票只能由得分高的页面投向得分低的页面,从而抑制作弊的发生。以上基于链接的排名算法都只关注一个网页的入链数量。然而,当指向某网页的入链来源比较单一时,并不能说明其被认同的程度较高,甚至还存在网页作弊的嫌疑。
技术实现思路
针对超链接来源单一的网页可能存在作弊嫌疑这一问题,本专利技术提出了一种。该方法将超链接来源这一因素考虑到排名方法当中,包括如下主要步骤计算每个网页的k_近邻集合;根据网页的k_近邻集合,计算每对网页的入链来源相似性;根据网页间入链来源的相似性,计算万维网的超链接权重矩阵;根据超链接权重矩阵,计算各网页的权威性;根据网页的权威性对全部网页排名。附图说明图I所示的流程图给出本专利技术提供的的基本步骤。图2所示的流程图给出计算每个网页k_近邻集合的具体步骤。图3所示的流程图给出计算万维网的超链接权重矩阵的具体步骤。图4所示的流程图给出计算各个网页权威性的具体步骤。图5和图6给出了基于人工网络数据对比分析本专利技术和4种现有算法抑制网页作弊的效果。图5所示抑制链接交换作弊手段的实验。图5 (a)所示作弊节点的平均得分变化;图5(b)所示作弊节点的平均排名变化。图6所示抑制操纵子节点作弊手段的实验。图6(a)所示受益节点的得分变化;图6(b)所示受益节点的排名变化。图7和图8给出了基于实际网络数据对比分析本专利技术和4种现有算法抑制网页作弊的效果。图7所示排名前500的权威节点统计情况。图7 (a)所示各区间内权威节点的数量;图7(b)所示各阶段累计权威节点的数量。图8所示各阶段累积作弊节点数量。图8(a)所示排名前1000各阶段累积作弊节点数量;图8(b)所示排名前10000各阶段累积作弊节点数量。具体实施例方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细说明。实施例仅用于说明本专利技术,但不用来限制本专利技术的应用范围。图1,一种的流程开始于步骤101。 步骤102 :计算每个网页的k_近邻集合,具体如下首先,定义网页的k_近邻集合。令N表示万维网。其中,V = Ivi I I彡i彡η}表示网页集合,Vi表示第i个网页,η表示网页总数,E = Kvi, Vi > 11彡i彡η, I彡j彡η}表示本文档来自技高网
...

【技术保护点】
一种基于超链接来源分析的网页排名方法,其特征在于,包括如下步骤:101:计算每个网页的k?近邻集合;102:根据网页的k?近邻集合,计算每对网页的入链来源相似性;103:根据网页间入链来源的相似性,计算万维网的超链接权重矩阵;104:根据超链接权重矩阵,计算各网页的权威性;105:根据网页的权威性对全部网页排名。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨博李剑楠
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1