基于超链接来源分析的网页排名方法技术

技术编号：8300875 阅读：634 留言：0更新日期：2013-02-07 04:27

一种基于超链接来源分析的网页排名方法，包括下列主要步骤：计算每个网页的k-近邻集合，计算每对网页入链来源的相似性，计算万维网的超链接权重矩阵，计算各网页的权威性，根据网页的权威性对网页排名。本发明专利技术为基于链接的网页排名提供了一种全新方法，与现有同类方法相比，本发明专利技术具有如下主要优点：(1)计算高效，易于实现；(2)参数少且易于设置，不需要种子页面集合；(3)在寻找优质页面和抑制网页排名作弊两方面均表现出更好的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息检索领域，尤其涉及到基于超链接分析的网页排名计算方法。
技术介绍
互联网飞速发展的同时，互联网上的信息量也呈爆炸式增长。用户要从海量的资源中寻找到对自己有帮助的信息，大都需要依靠搜索引擎的帮助。搜索引擎可以根据用户的搜索需求，从互联网中找到与需求相关的信息返回给用户。通过对大量用户行为的统计，在搜索引擎为用户返回的结果中，用户只对前几页的内容感兴趣。因此，搜索引擎都具备一个网页排名算法用于对将要返回给用户的结果进行排序，之后再将排序后的结果返回给用户。其目的是希望将最有价值的网页排在最前面，使用户只需浏览前几页的信息就能找到对自己有用的资源。排名算法性能的优劣将会直接影响搜索引擎的服务质量和用户的搜索体验。另一方面，搜索引擎正面临着日益严重的网页作弊问题一网站创建者利用现有排名算法的缺陷，通过欺骗手段达到虚假提高网站中网页排名的目的。作弊网页质量不高，甚至包含虚假信息，严重影响了搜索服务质量。随着基于链接排名算法的广泛应用，基于链接的作弊己成为网页作弊的主要形式，如链接交换、构造链接农场和操纵子结点作弊等等。因此，排名算法和作弊检测一直都是搜索引擎研究中的热点问题。由Brin和Page提出的PageRank算法以及Kleinberg提出的HITS算法是最著名的两种基于链接结构的网页排名算法。PageRank算法认为一个网页被高质量网页指向的次数越多，该网页的质量也就越高。其在现实中应用十分广泛，受到了学者们的关注与研究。HITS算法认为每个网页具备两种属性权威性(authority)和中心性(hub)。权威性高的网页包含了用户需要的信...

【技术保护点】
一种基于超链接来源分析的网页排名方法，其特征在于，包括如下步骤：101：计算每个网页的k？近邻集合；102：根据网页的k？近邻集合，计算每对网页的入链来源相似性；103：根据网页间入链来源的相似性，计算万维网的超链接权重矩阵；104：根据超链接权重矩阵，计算各网页的权威性；105：根据网页的权威性对全部网页排名。

【技术特征摘要】

【专利技术属性】
技术研发人员：杨博，李剑楠，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人