一种搜索引擎作弊检测的优化方法技术

技术编号:4201493 阅读:333 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种搜索引擎作弊检测的优化方法,该方法包括:步骤S1:预处理所有网页和超链接,进行特征提取,针对提取的特征进行初步作弊检测;步骤S2:在初步作弊检测结果的基础上,进行二级特征提取,提取出聚类特征、传递特征和近邻特征;步骤S3:在初步作弊检测结果和二级特征提取结果的基础上,采用机器学习算法对作弊进行再检测,并生成检测结果。利用本发明专利技术,解决了现有技术中启发式作弊检测方法的不稳定性问题,并最大程度上优化了搜索引擎作弊检测的性能。

【技术实现步骤摘要】

本专利技术涉及信息检索和搜索引擎
,尤其涉及一种搜索引 擎作弊检测的优化方法。
技术介绍
互联网作为有史以来最大的信息库,其内容仍在以指数级增长。互联网搜索已经成为人们日常生活的一部分,CNNIC2007年7月发布 的报告称网民中每日使用搜索引擎的比例高达61.91%。N. Eiron等学者使用著名的PageRank算法对1亿网页进行排序, 结果发现排在最前面的20个网站中有11个是色情网站,这些网站通 过篡改超链接以获取靠前的排名。根据美国商业调查局的调查,2006 年,美国的电子商务销售额达到1141亿美元,比2005年的930亿美 元增长了 22.7%。而2007年,这一统计的第一个季度就达到了 315亿 美元,比2006年同期增长了 18.4%。BernardJ. Jansen禾Q Amanda Spink 的研究结果显示,大约80%的用户在使用搜索引擎时只会浏览前3页 的返回结果。互联网上巨大的利润和搜索引擎的门户作用,驱使很多网站管理 者和网页制作者想方设法使其站点和页面变得有名,以期待用户在进 行相关内容查询时,排在结果的前列。搜索引擎作弊(Web Spam), 又叫搜索引擎作弊,是指采用一些迷惑、欺骗搜索引擎的手段,使得 Web页面在检索结果中的排名高于实际应得排名的行为,它导致搜索 引擎检索结果的质量严重下降。互联网作弊广义上可以分为内容作弊、链接作弊两类。内容作弊 指网站利用内容信息欺骗搜索引擎,提高某些页面的重要性,包含关 键词作弊、针对标题作弊等。链接作弊指作弊网站针对PageRank算法 构造出一些网络链接结构,迷惑搜索引擎排序算法,从而提高某些页面的重要性。针对以上作弊形式,大量相关应对策略被提了出来。在基于内容分析的作弊网页检测方面,A. Ntoulas等人考察作弊网页与一般网页中 平均字长、可显示部分的比例、内容压縮比例、锚文本的数量和流行 词汇在文本中的比例等,总结出一系列启发式特征,把内容作弊网页 检测作为二分类问题,训练决策树分类器,多数的内容欺诈网页可以 被检测出来。在基于链接的作弊检测方面,最早的有影响力的工作是 Gyongyi等人提出的TmstRank算法,其出发点是"好的页面很少指向作 弊页面"。通过手工挑选信誉好的种子集合,沿网络图中的超链接进行 信任度传播。从而获得各个页面的信任度,进而把所有页面分为Spam 和Normal两种。搜索引擎和网络作弊制造者之间的战争如同一场军备竞赛,每当 搜索引擎发现了一个有效的方法并加以使用后,经过一段时间作弊者 就找出应对方法,专利技术出新的作弊形式。基于机器学习的方法针对新 的作弊形式,通过增加、删除相应特征,保持系统对作弊检测的有效 性,而不必修改系统结构。基于机器学习的作弊检测方法成为近期研 究的热点。Carlos Castillo等人将以往文献中提到的大量启发式方法作 为检测特征,形成236维包含了内容和链接相关属性的特征向量,采 用机器学习的方法对作弊行为进行检测。无论是检测精度和还是稳定 性都远好于以往的方法。然而Carlos最后又走了前人的老路——基于 检测置信度,利用图聚类、链接学习和栈图学习等启发式方法优化第 一轮检测的精度。为了在优化检测性能的同时,最大限度的避免这些启发式方法所 带来的不稳定性,我们提出了基于二级特征的作弊检测优化方法。
技术实现思路
(一)要解决的技术问题 有鉴于此,本专利技术的主要目的在于提供一种搜索引擎作弊检测的 优化方法,以解决现有技术中启发式作弊检测方法的不稳定性问题, 并最大程度上优化搜索弓I擎作弊检测的性能。(二)技术方案为达到上述目的,本专利技术提供了一种搜索引擎作弊检测的优化方 法,该方法包括步骤Sl:预处理所有网页和超链接,进行特征提取,针对提取的 特征进行初步作弊检测;步骤S2:在初步作弊检测结果的基础上,进行二级特征提取,提 取出聚类特征、传递特征和近邻特征;步骤S3:在初步作弊检测结果和二级特征提取结果的基础上,采用机器学习算法对作弊进行再检测,并生成检测结果。优选地,步骤Sl中所述初步作弊检测包括网页抓取、网页内容提取、网络超链接图构建、特征提取、训练 集生成、测试集生成、学习分类器、检测训练集,以及初步检测结果 的生成与存储。优选地,所述特征提取,所提取的特征包含页面内容特征和超链 接相关的特征,该超链接相关特征进一步包括网页级链接相关特征和 网站级链接相关特征。优选地,所述在进行初步检测结果的生成时,作弊检测算法采用模式分类算法SVM、 AdaBoost或C4.5。优选地,所述初步作弊检测的结果为检测的置信度,是进行二级 特征提取前提,该初步作弊检测的结果连同网站级超链接图一起作为 二级特征提取的输入。优选地,所述网站级链接相关特征的计算是基于网站级链接图。优选地,步骤S2中所述聚类特征的提取是基于图划分的特征,该 基于图划分的聚类方法,包括基于布尔链接的图划分和基于权重链接 的图划分,并分别划分为不同大小的子图,对特定子图内的节点的置 信度计算算数平均,以生成再次分类所用的聚类特征。优选地,步骤S2中所述传递特征的提取,是基于有向图的置信度 传递、基于反向图的置信度传递和基于无向图的置信度传递,以对每 个站点生成三个特征。优选地,步骤S2中所述近邻特征的提取,是基于一级近邻关系的特征提取和基于二级近邻关系的特征提取;针对该一级近邻关系和二级近邻关系,分别就链接的方向和反方向节点的不同组合生成多个特征。优选地,步骤S3中所述采用机器学习算法对作弊进行再检测所使 用的特征,是由步骤Sl初步作弊检测的特征和步骤S2 二级特征提取的特征组合而成的,所述对作弊进行再检测具体包括在扩充后的特征空间上对训练集和测试集进行重新表示,同时使用初步特征和二次提取特征表示样本;在训练集上训练分类器,分类 器被训练结束后,使用训练好的分类器对测试集中的站点样本进行作 弊检测,完成对初步检测的优化,生成最终的作弊检测结果。优选地,所述在训练集上训练分类器时,分类器选择C4.5、Bagging 或Adaboost。优选地,步骤S2中所述二级特征的提取可进一步扩充为多级特征 提取。(三)有益效果从上述技术方案可以看出,本专利技术提供的基于二级特征的搜索引 擎作弊检测的优化方法,克服了基于机器学习的搜索引擎作弊检测所 面临的特征提取难的问题。与启发式的方法相比,不仅可以更好的提 高检测性能,最大程度上优化了搜索引擎作弊检测的性能,而且大大 提高了检测系统的鲁棒性。附图说明图1是本专利技术提供的基于二级特征的搜索引擎作弊检测的方法流 程图2是本专利技术提供的从预处理到初步检测的数据流程图3是本专利技术提供的二级特征提取的示意图4是本专利技术提供的图(聚类)划分的示意图5是本专利技术提供的近邻关系特征提取的示意图6是本专利技术提供的基于扩展后的特征空间进行作弊检测的方法流程图。 具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具 体实施例,并参照附图,对本专利技术进一步详细说明。下面将结合附图对本专利技术加以详细说明,应指出的是,所描述的 实施例仅旨在便于对本专利技术的理解,而对其不起任何限定作用。为了实现本专利技术的方法,考虑到算法要处理海量网页的超链接图,如果在单机实现,最好保证处理器主频不小于2G本文档来自技高网
...

【技术保护点】
一种搜索引擎作弊检测的优化方法,其特征在于,该方法包括: 步骤S1:预处理所有网页和超链接,进行特征提取,针对提取的特征进行初步作弊检测; 步骤S2:在初步作弊检测结果的基础上,进行二级特征提取,提取出聚类特征、传递特征和近邻特 征; 步骤S3:在初步作弊检测结果和二级特征提取结果的基础上,采用机器学习算法对作弊进行再检测,并生成检测结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:耿光刚李秋丹王春恒戴汝为
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1