基于内容相关性的Web无效链接过滤方法技术

技术编号:6839914 阅读:272 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于内容相关性的Web无效链接过滤方法。该方法首先利用网页中的文本位置信息,通过统计方法去除网页中不相关的广告类链接和导航类链接;然后对网页内容和链接所指向网页的内容进行相关性分析,去除内容不相关的无效链接。本无效链接过滤方法能够较好地去除无效链接,在净化后的链接结构图上进行PageRank计算,页面排名结果可以有较大改进,包括对于排名靠前的网页质量的提升,以及引入更多高价值的网站等。

【技术实现步骤摘要】

本专利技术涉及一种过滤Web页面中无效链接(uselesslinks)的方法,尤其涉及一种基于内容相关性分析的Web页面无效链接过滤方法,属于互联网搜索

技术介绍
随着互联网的飞速发展,用于互联网信息查询的搜索引擎发挥着日益重要的作用。对于搜索引擎而言,其主要任务是找到相关网页并按页面重要度排序返回给用户。随着Web页面数目的增长、页面内容的丰富和页面链接的多姿多彩,搜索引擎开始变得越来越“力不从心”。这里面的原因很多,其中重要的一点就是Web页面中无效链接的日益泛滥。经过分析,Web页面中的链接可分为以下四类人工生成的链接这类链接中大部分是人工通过比较两个网页的内容,根据它们的相关性来进行创建的,而且被网页创建者归为“相关链接”,因此大部分这样的链接具有很强的推荐意义。也有一部分所指向的网页内容与本网页内容主题并不相关,只在某一点上稍微有些关联。导航类链接这类链接是网页创建者利用相应的模块生成的,对于同一站点下的网页是基本相同的,主要是让用户可以在本网站的不同领域之间访问。这些链接对于用户访问起到了一定的导航作用,但是和网页相关性推荐没有丝毫关系。广告类链接这类链接是根据网页中的一些动态函数生成的,一般是为了网站的商业利益增加的,在链接中占了很大的比重,尤其是对于com类的网页中,这部分链接占到了一半以上。这部分链接对于推荐内容相关的网页基本没有贡献。偏袒类链接这类链接主要指主网页和指向的子网页属于同一站点的这一类链接,是网站创立者为了推荐本网站中的一些新的或者较多关注的网页,增加它们的点击率而在网页中加入的。图1是新浪上截取的一个新闻类网页,其中⑤中的链接是人工生成的链接(上述的第一类)。①中的链接是网站中具有导航意义的链接(上述的第二类),它们分别指向了新浪的其他类网站的主页;②、⑥中的链接属于偏袒类链接(上述的第三类),是为了推荐当天最新的新闻而生成的,从内容上可以看出它们指向的都是一些与本网页无关的网页; ④、⑦部分的链接是网站为了经济利益所增加的广告链接(上述的第四类)。经过分析,专利技术人认为对于不具有推荐意义的链接类型,包括第一类中不具有主题相关性的链接、第二、第三、第四类链接,这些统称为“无效链接”;而第一类中具有主题相关性的链接则称为“有效链接”。链接分析是Web页面排序方面最成功的方法之一,包括G00gle、Yah00 !在内的很多搜索引擎都是利用该方法,同时结合anchor text、词频统计等因素而获得了巨大成功。 链接分析方法的成功,很大程度上决定于Web页面链接的有效性,或者说取决于以下假设的合理性当网页A存在一个到网页B的链接时,说明网页A的作者认为网页B的内容是重要的,并且通常来说,网页A和B的内容具有相关的主题。可以说,这个内容相关性假设是链接分析方法赖以生存的基础。在互联网发展初期,网页中的链接基本上符合内容相关性假设,网页之间的相关性传递是有意义的。但随着Web技术的不断发展和网页数量的不断膨胀,越来越多的网页由网页生成工具自动生成,因此很多链接失去了相关性意义,导致无效链接的比例越来越高。同时,随着搜索引擎的应用,很多网站的管理者为了提高在搜索引擎中排名,引入了大量的无用链接,出现了很多Spam站点。另一方面,目前的大部分商业类网站都是以商业利益作为最终目标的,这就造成了大量广告链接的引入。基于以上多种原因,目前Web中链接的内容相关性和推荐意义已经受到了严重的威胁。如果不进行处理,所构造的链接结构图已经不能正确反映网页之间的关联关系,基于这样的链接图得到的排序结果将不再真实有效。
技术实现思路
本专利技术所要解决的技术问题在于提供一种。该链接过滤方法通过构造更为合理的链接结构图,再进行链接分析,从而提高了无效链接过滤的效果。为了实现上述的专利技术目的,本专利技术采用下述的技术方案一种,其特征在于包括如下的步骤(1)利用网页中的文本位置信息,通过统计方法去除网页中不相关的广告类链接和导航类链接;(2)对网页内容和链接所指向网页的内容进行相关性分析,去除内容不相关的无效链接。其中,在所述步骤(1)之中,首先将HTML文档转化为DOM树结构,然后在DOM树结构中寻找包含主体内容和与主题相关的链接的最小子树,得到所需要的链接信息。对于所述DOM树结构,首先利用分块节点将DOM树分为各个子树,在每个子树中计算链接比,与预定的阈值进行比较;如果小于阈值,则将该块设置为主体块,然后回溯查找包含该块的最近的父分块节点,以该父分块节点作为目标节点,输出该父分块节点中的链接,作为后续分析的基础。所述步骤O)中,在进行网页的内容相关性分析之前,对网页的文本进行预处理, 抽取出代表各个文本的内容进行比较。进行文本预处理的过程包括如下的步骤首先进行文本切词,然后统计文本中的词语频率,计算TF-IDF向量,形成与文本集合对应的向量空间模型;利用文本的特征向量来计算各个文本之间的内容相似度,并利用内容相似度来去除网页中内容不相关的链接。所述内容相似度由各个文本的特征向量中所包含的词条的重叠程度确定。或者,所述内容相似度由各个文本的特征向量中的夹角余弦来确定。所述步骤O)中,所述内容相关性分析包括三层操作第一层是根据入口文本进行内容相关性分析;第二层是根据网页的标题进行内容相关性分析;第三层是根据网页正文内容进行内容相关性分析;如果在这三层都得到网页主题不相关的结论,则在父网页的链接列表中删除此链接。本专利技术所提供的无效链接过滤方法基于内容相关性分析实现,可以使过滤后的链接能更真实地反映网页之间的相互关系,使网页链接相关性假设更为合理,从而大大提高链接分析结果的有效性。附图说明下面结合附图和具体实施方式对本专利技术作进一步的详细说明。图1是新浪上截取的一个新闻类网页的示意图;图2显示了一个从HTML文档转化来的DOM树的示例;图3显示了进行第二步过滤操作之后的数据结果;图4显示了进行三次排名之后,排在前100的页面所在站点的情况。具体实施例方式本专利技术所提出的Web无效链接过滤方法大致可以分为两部分的操作第一部分是利用网页中的文本位置信息,通过统计方法,去除网页中不相关的广告、导航等链接;第二部分是在第一部分的基础上,对网页内容和链接所指向网页的内容进行相关性分析,去除那些内容不相关的链接。下面分别进行详细的说明。一 .基于文本位置的过滤目前,大部分网页是通过统一的模板建立的,对于一般网页中与主题相关的链接都被网页建立者放置在一个网页正文的下方,因此这部分的过滤工作是建立在这一假设基础之上的。该过滤工作包括首先将HTML文档转化为DOM树结构,然后在DOM树中寻找包含主体内容和与主题相关的链接的最小子树,得到需要的链接信息,为后续的内容分析和去除网页中主题不相关的链接做准备。DOM(Document Object Model)即文档对象模型,是W3C制定的标准接口规范,是一种供HTML和XML文档使用的应用程序编程接口(API)。HTML文档被解析后,转化为DOM 树结构,DOM树的每个节点是一个对象,HTML文档中的内容完全包含在各节点中。图2是一个从HTML文档转化的DOM树的例子。在本专利技术的一个具体实施例中,采用CyberNeko HTML Parser解析器对HTML文档进行解析并生成D本文档来自技高网
...

【技术保护点】
1.一种基于内容相关性的Web无效链接过滤方法,其特征在于包括如下的步骤:(1)利用网页中的文本位置信息,通过统计方法去除网页中不相关的广告类链接和导航类链接;(2)对网页内容和链接所指向网页的内容进行相关性分析,去除内容不相关的无效链接。

【技术特征摘要】

【专利技术属性】
技术研发人员:汪敏刘轩山
申请(专利权)人:广东开普互联信息科技有限公司
类型:发明
国别省市:44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1