垃圾网页的识别方法及系统技术方案

技术编号：8626202 阅读：143 留言：0更新日期：2013-04-25 23:22

本发明专利技术提出一种垃圾网页的识别方法及系统。其中，方法包括：获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志；从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询-结果集合；从查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合；根据查询-结果集合和垃圾网页样例集合计算查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分；当结果网页的垃圾得分大于阈值则结果网页为垃圾网页，并将结果网页添加到垃圾网页集合中。根据本发明专利技术实施例的方法，通过搜索引擎查询日志发现和识别垃圾网页降低了算法复杂度，具有较好的推广性和适应性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络信息智能处理
，特别涉及一种垃圾网页的识别方法及系统。
技术介绍
互联网信息量的飞速增长使搜索引擎成为人们日常工作和生活中不可或缺的信息获取手段。根据中国互联网络信息中心2011年12月的统计，我国的网民群体中搜索引擎用户的数量已经达到3. 96亿，应用普及率近80%，是网民使用最多的互联网服务之一。搜索引擎在用户的上网过程中发挥着重要的入口作用，因此，在搜索引擎检索结果中取得有利的排名已经成为网络资源尽快获得用户关注的最有效途径。在这种以搜索引擎为主要入口的信息获取方式下，高搜索排名带来的高流量和高收益诱使不少网络内容提供者使用作弊方式对搜索引擎算法进行欺诈，以获取较有利的结果排名，而这种使用作弊方式基于欺诈获利的网页就是垃圾网页。垃圾网页的定义为利用搜索引擎运行算法的缺陷，采取针对搜索引擎的作弊手段，使其获得高于其网络信息质量排名效果以谋求直接或间接利益的网页。Fetterly等人在2003年通过对英文网络页面的采样分析，认为其中至少有8. 1%的页面是垃圾网页；而07511871等人在2004年则估计Web中大约有10%至15%的垃圾内容；根据我们在搜狗搜索引擎协助下对约8亿个中文网页的抽样分析，中文网络资源中约有15%的网页属于垃圾网页。垃圾网页对于网络用户、网络资源环境和搜索引擎都会产生显著的不利影响。对于网络用户而言，垃圾网页排在检索结果列表中靠前的位置以欺骗用户点击，这种行为增加了用户查找想要的有用信息的难度，降低用户的信息获取效率；垃圾网页还往往与病毒、木马软件等结合，对用户的信息安全造成严重的影响。对于网络资源环...

【技术保护点】
一种垃圾网页的识别方法，其特征在于，包括以下步骤：S1：获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志，其中，所述预处理查询日志包括多个查询和结果网页；S2：从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询?结果集合；S3：从所述查询?结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合；S4：根据所述查询?结果集合和垃圾网页样例集合计算所述查询?结果集合中每个结果网页的垃圾得分和每个查询的作弊得分；以及S5：如果所述查询?结果集合中结果网页的垃圾得分大于阈值则所述结果网页为垃圾网页，并将所述结果网页添加到所述垃圾网页集合中。

【技术特征摘要】
1.一种垃圾网页的识别方法，其特征在于，包括以下步骤 S1:获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志，其中，所述预处理查询日志包括多个查询和结果网页；S2:从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合； S3:从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合；S4:根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分；以及 S5:如果所述查询-结果集合中结果网页的垃圾得分大于阈值则所述结果网页为垃圾网页，并将所述结果网页添加到所述垃圾网页集合中。2.根据权利要求1所述的垃圾网页的识别方法，其特征在于，所述步骤SI具体包括S11:获取搜索引擎的查询日志，并对所述查询日志转换为GBK格式；S12:对所述转换后的查询日志进行整理获得预处理查询日志。3.根据权利要求1所述的垃圾网页的识别方法，其特征在于，所述步骤S2具体包括 S21 :对所述预处理查询日志的每个查询分词为多个关键词，并将所述每个关键词与用户的点击结果网页构建第一查询-结果集合； S22:计算所述第一查询-结果集合中每个查询的用户结果网页点击频率，并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合； S23 :计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数，并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。4.根据权利要求1所述的垃圾网页的识别方法，其特征在于，所述步骤S4具体包括S41:设置所述查询-结果集合中每一个查询的初始作弊得分，并设置所述查询-结果集合中结果网页的初始垃圾得分；S42:计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分；以及S43:计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值，如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分，否则不更改所述垃圾得分。5.一种垃圾网页的识别系统，其特征在于，包括预处理模块，用于获取...

【专利技术属性】
技术研发人员：刘奕群，马少平，张敏，金奕江，张阔，
申请(专利权)人：清华大学，北京搜狗科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人