当前位置: 首页 > 专利查询>清华大学专利>正文

垃圾网页的识别方法及系统技术方案

技术编号:8626202 阅读:143 留言:0更新日期:2013-04-25 23:22
本发明专利技术提出一种垃圾网页的识别方法及系统。其中,方法包括:获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志;从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询-结果集合;从查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;根据查询-结果集合和垃圾网页样例集合计算查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;当结果网页的垃圾得分大于阈值则结果网页为垃圾网页,并将结果网页添加到垃圾网页集合中。根据本发明专利技术实施例的方法,通过搜索引擎查询日志发现和识别垃圾网页降低了算法复杂度,具有较好的推广性和适应性。

【技术实现步骤摘要】

本专利技术涉及网络信息智能处理
,特别涉及一种垃圾网页的识别方法及系统
技术介绍
互联网信息量的飞速增长使搜索引擎成为人们日常工作和生活中不可或缺的信息获取手段。根据中国互联网络信息中心2011年12月的统计,我国的网民群体中搜索引擎用户的数量已经达到3. 96亿,应用普及率近80%,是网民使用最多的互联网服务之一。搜索引擎在用户的上网过程中发挥着重要的入口作用,因此,在搜索引擎检索结果中取得有利的排名已经成为网络资源尽快获得用户关注的最有效途径。在这种以搜索引擎为主要入口的信息获取方式下,高搜索排名带来的高流量和高收益诱使不少网络内容提供者使用作弊方式对搜索引擎算法进行欺诈,以获取较有利的结果排名,而这种使用作弊方式基于欺诈获利的网页就是垃圾网页。垃圾网页的定义为利用搜索引擎运行算法的缺陷,采取针对搜索引擎的作弊手段,使其获得高于其网络信息质量排名效果以谋求直接或间接利益的网页。Fetterly等人在2003年通过对英文网络页面的采样分析,认为其中至少有8. 1%的页面是垃圾网页;而07511871等人在2004年则估计Web中大约有10%至15%的垃圾内容;根据我们在搜狗搜索引擎协助下对约8亿个中文网页的抽样分析,中文网络资源中约有15%的网页属于垃圾网页。垃圾网页对于网络用户、网络资源环境和搜索引擎都会产生显著的不利影响。对于网络用户而言,垃圾网页排在检索结果列表中靠前的位置以欺骗用户点击,这种行为增加了用户查找想要的有用信息的难度,降低用户的信息获取效率;垃圾网页还往往与病毒、木马软件等结合,对用户的信息安全造成严重的影响。对于网络资源环境而言,由于国家法律法规的限制,搜索引擎通常不会为色情、赌博等非法网络内容提供竞价广告服务,这使得借助作弊方式提升排名成为了这些内容提供网站的主要选择,垃圾网页中因而也充斥着各类非法内容,而这种加入作弊技术的非法内容网页往往会造成更广泛的不良影响,更严重的破坏网络资源环境。对于搜索引擎系统而言,垃圾网页的存在导致数据索引里充斥无用页面,浪费大量存储空间和处理时间,从而加大搜索引擎在处理每个查询时的消耗,降低搜索处理效率,同时降低用户对搜索引擎的信任度。现有垃圾网页识别方法的一种是针对基于内容作弊的识别研究工作方面,针对垃圾页面的URL特征及常用短语特征进行了分析,并对基于MSN搜索抓取的1. 05亿网页进行了页面内容特征提取,使用了包括标题长度、词语的平均长度、可见内容的比例、内容压缩比等特征来区分垃圾网页与正常网页。在此基础上还使用了更多的内容特征来进行识别工作,其特征包括锚文本的数量、页面中含有热门词汇的数量等,并使用了排序学习方法对特征加以融合进行垃圾网页的识别。另一种是基于链接结构分析的垃圾网页识别。GySngyi等人在2004年提出的TrustRank算法则开启了一条利用链接结构信息识别垃圾网页的新途径,可以应用于包括内容作弊和链接作弊在内的多种垃圾网页的识别。尽管该方法缺乏对于链接结构图中噪音数据的应对方式,但仍有相当数量的研究者基于对TrustRank算法的改进提出了多个链接分析算法应用于垃圾网页识别,这些算法包括Ant1-TrustRank, Truncated PageRank等。以上垃圾网页识别工作在相对固定的网页测试集合上都获得了较好的识别效果,国际知名的垃圾网页评测Web Spam Challenge给出的评测结果很多达到80%以上的识别准确率,而不少相关论文给出的实验结果准确率则往往超过90%。然而,种种原因造成这些识别算法在应用于真实互联网环境时仍然面临着巨大的挑战,很难充分发挥其识别效果,这也造成了当今垃圾网页仍旧对搜索引擎应用造成巨大影响的事实。现有技术的缺点主要如下(I)这些算法往往只能针对某种特定类型的垃圾网页进行识别,缺乏识别的鲁棒性,且垃圾网页的作弊形式层出不穷,尽管识别算法对于某类垃圾网页的识别性能很高,但无法对其他类型的垃圾进行识别,垃圾网页作者一旦采用新的作弊形式,这些算法就往往会失去识别效用。(2)随着作弊形式的发展,不少算法需要耗费大量计算、存储或带宽资源的方式进行垃圾识别,例如,对网页内容进行多元语言模型构建、对网页进行多次抓取、对网页脚本进行深层解析等,这使得这些算法识别垃圾网页的效率与搜索引擎的在线服务需求不相符合,因而无法应用于实际搜索引擎服务中。
技术实现思路
本专利技术的目的旨在至少解决上述的技术缺陷之一。为达到上述目的,本专利技术一方面的实施例提出一种垃圾网页的识别方法,包括以下步骤S1 :获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;S2 :从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合;S3 :从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;S4 :根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;以及S5 :如果所述查询-结果集合中结果网页的垃圾得分大于阈值则所述结果网页为垃圾网页,并将所述结果网页添加到所述垃圾网页集合中。根据本专利技术实施例的方法,通过搜索引擎查询日志数据,从而发现和识别垃圾网页降低了算法复杂度,并且结构和参数简单,识别结果全面可靠,具有较好的推广性和适应性。本专利技术的一个实例中,所述步骤SI具体包括Sll :获取搜索引擎的查询日志,并对所述查询日志转换为GBK格式;S12 :对所述转换后的查询日志进行整理获得预处理查询日志。本专利技术的一个实例中,所述步骤S2具体包括S21 :对所述预处理查询日志的每个查询分词为多个关键词,并将所述每个关键词与用户的点击结果网页构建第一查询-结果集合;S22 :计算所述第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合;S23 :计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。本专利技术的一个实例中,所述步骤S4具体包括S41 :设置所述查询-结果集合中每一个查询的初始作弊得分,并设置所述查询-结果集合中结果网页的初始垃圾得分;S42 计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及S43 :计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。为达到上述目的,本专利技术的实施例另一方面提出一种垃圾网页的识别系统,包括预处理模块,用于获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;筛选模块,用于从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合;提取模块,用于从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;计算模块,用于根据所述查询-结果集合和垃圾本文档来自技高网
...

【技术保护点】
一种垃圾网页的识别方法,其特征在于,包括以下步骤:S1:获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;S2:从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询?结果集合;S3:从所述查询?结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;S4:根据所述查询?结果集合和垃圾网页样例集合计算所述查询?结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;以及S5:如果所述查询?结果集合中结果网页的垃圾得分大于阈值则所述结果网页为垃圾网页,并将所述结果网页添加到所述垃圾网页集合中。

【技术特征摘要】
1.一种垃圾网页的识别方法,其特征在于,包括以下步骤 S1:获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;S2:从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合; S3:从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;S4:根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;以及 S5:如果所述查询-结果集合中结果网页的垃圾得分大于阈值则所述结果网页为垃圾网页,并将所述结果网页添加到所述垃圾网页集合中。2.根据权利要求1所述的垃圾网页的识别方法,其特征在于,所述步骤SI具体包括S11:获取搜索引擎的查询日志,并对所述查询日志转换为GBK格式;S12:对所述转换后的查询日志进行整理获得预处理查询日志。3.根据权利要求1所述的垃圾网页的识别方法,其特征在于,所述步骤S2具体包括 S21 :对所述预处理查询日志的每个查询分词为多个关键词,并将所述每个关键词与用户的点击结果网页构建第一查询-结果集合; S22:计算所述第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合; S23 :计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。4.根据权利要求1所述的垃圾网页的识别方法,其特征在于,所述步骤S4具体包括S41:设置所述查询-结果集合中每一个查询的初始作弊得分,并设置所述查询-结果集合中结果网页的初始垃圾得分;S42:计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及S43:计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。5.一种垃圾网页的识别系统,其特征在于,包括 预处理模块,用于获取...

【专利技术属性】
技术研发人员:刘奕群马少平张敏金奕江张阔
申请(专利权)人:清华大学北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1