基于内容相关性的Web无效链接过滤方法技术

技术编号：6839914 阅读：272 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于内容相关性的Web无效链接过滤方法。该方法首先利用网页中的文本位置信息，通过统计方法去除网页中不相关的广告类链接和导航类链接；然后对网页内容和链接所指向网页的内容进行相关性分析，去除内容不相关的无效链接。本无效链接过滤方法能够较好地去除无效链接，在净化后的链接结构图上进行PageRank计算，页面排名结果可以有较大改进，包括对于排名靠前的网页质量的提升，以及引入更多高价值的网站等。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种过滤Web页面中无效链接(uselesslinks)的方法，尤其涉及一种基于内容相关性分析的Web页面无效链接过滤方法，属于互联网搜索

技术介绍
随着互联网的飞速发展，用于互联网信息查询的搜索引擎发挥着日益重要的作用。对于搜索引擎而言，其主要任务是找到相关网页并按页面重要度排序返回给用户。随着Web页面数目的增长、页面内容的丰富和页面链接的多姿多彩，搜索引擎开始变得越来越“力不从心”。这里面的原因很多，其中重要的一点就是Web页面中无效链接的日益泛滥。经过分析，Web页面中的链接可分为以下四类人工生成的链接这类链接中大部分是人工通过比较两个网页的内容，根据它们的相关性来进行创建的，而且被网页创建者归为“相关链接”，因此大部分这样的链接具有很强的推荐意义。也有一部分所指向的网页内容与本网页内容主题并不相关，只在某一点上稍微有些关联。导航类链接这类链接是网页创建者利用相应的模块生成的，对于同一站点下的网页是基本相同的，主要是让用户可以在本网站的不同领域之间访问。这些链接对于用户访问起到了一定的导航作用，但是和网页相关性推荐没有丝毫关系。广告类链接这类链接是根据网页中的一些动态函数生成的，一般是为了网站的商业利益增加的，在链接中占了很大的比重，尤其是对于com类的网页中，这部分链接占到了一半以上。这部分链接对于推荐内容相关的网页基本没有贡献。偏袒类链接这类链接主要指主网页和指向的子网页属于同一站点的这一类链接，是网站创立者为了推荐本网站中的一些新的或者较多关注的网页，增加它们的点击率而在网页中加入的。图1是新浪上截取的一个新闻类网页...

【技术保护点】
１．一种基于内容相关性的Ｗｅｂ无效链接过滤方法，其特征在于包括如下的步骤：（１）利用网页中的文本位置信息，通过统计方法去除网页中不相关的广告类链接和导航类链接；（２）对网页内容和链接所指向网页的内容进行相关性分析，去除内容不相关的无效链接。

【技术特征摘要】

【专利技术属性】
技术研发人员：汪敏，刘轩山，
申请(专利权)人：广东开普互联信息科技有限公司，
类型：发明
国别省市：44

全部详细技术资料下载我是这个专利的主人