一种基于小样本集的搜索引擎作弊检测方法技术

技术编号:2820694 阅读:363 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及互联网信息检索,公开一种基于小样本集的互联网作弊检测方法,以打击日益严峻的搜索引擎作弊行为,本发明专利技术针对检测样本收集成本高这一难题,利用基于分类器的自学习和基于互联网拓扑结构的链接学习过程的迭代执行,不断扩充训练集,以实现在小样本集下对搜索引擎作弊进行检测,并在识别过程中采用集成的降采样策略,充分利用了互联网上广泛存在的高信誉网站所包含的信息。最后进行沿互联网拓扑结构的基于预测作弊度的标号传递,以实现检测结果优化。利用实验表明这一方法能有效地对作弊行为进行检测。

【技术实现步骤摘要】

本专利技术涉及信息检索和搜索引擎
,是一种小样本下搜索引擎作弊检测的方法。
技术介绍
互联网作为有史以来最大的信息库,其内容仍在以指数级增长。互联网搜索已经成为人们日常生活的一部分,CNNIC2006年7月发布的报告称搜索引擎以66.3%的比例高居网民最常使用的网络服务首位。 N.Eiron等学者使用著名的PageRank算法对1亿网页进行排序,结果发现排在最前面的20个网站中有11个是色情网站,这些网站通过篡改超链接以获取靠前的排名。根据美国商业调查局的调查,2006年,美国的电子商务销售额达到1141亿美元,比2005年的930亿美元增长了22.7%。而2007年,这一统计的第一个季度就达到了315亿美元,比2006年同期增长了18.4%。Bernard J.Jansen和Amanda Spink的研究结果显示,大约80%的用户在使用搜索引擎时只会浏览前3页的返回结果。 互联网上巨大的利润和搜索引擎的门户作用,驱使很多网站管理者和网页制作者想方设法使其站点和页面变得有名,以期待用户在进行相关内容查询时,排在结果的前列。互联网作弊(Web Spam),又叫搜索引擎作弊,是指采用一些迷惑、欺骗搜索引擎的手段,使得Web页面在检索结果中的排名高于实际应得排名的行为,它导致搜索引擎检索结果的质量严重下降。 互联网作弊可以分为内容作弊、链接作弊和隐藏作弊三类。内容作弊指网站利用内容信息欺骗搜索引擎,提高某些页面的重要性,包含关键词作弊、针对标题作弊等。链接作弊指作弊网站针对PageRank算法构造出一些网络链接结构,迷惑搜索引擎排序算法,从而提高某些页面的重要性。隐藏作弊指作弊者利用各种隐蔽技术,使上述内容和链接作弊技术的使用不被用户发现。 针对以上作弊形式,大量相关应对策略被提了出来。在基于内容分析的作弊网页检测方面,A.Ntoulas等人考察作弊网页与一般网页中平均字长、可显示部分的比例、内容压缩比例、锚文本的数量和流行词汇在文本中的比例等,总结出一系列启发式特征,把内容作弊网页检测作为二分类问题,训练决策树分类器,多数的内容欺诈网页可以被检测出来。在基于链接的作弊检测方面,最早的有影响力的工作是Gyongyi等人提出的TrustRank算法,其出发点是“好的页面很少指向作弊页面”。通过手工挑选信誉好的种子集合,沿网络图中的超链接进行信任度传播。从而获得各个页面的信任度,进而把所有页面分为Spam和Normal两种。B.Wu和Davison等人提出了一种对伪装作弊进行检测的方法,针对每一个URL,通过爬虫先后抓取两次,另外仿照浏览器模式抓取一次,然后计算它们之间在内容上的差异,以判定是否存在重定向作弊。这种方法的缺点是多次抓取增加了搜索引擎处理的负担,同时也占用大量带宽,更重要的是,这种方法需要搜索引擎的爬虫产生常规的浏览请求,这违反了Robots Exclusion Standard协议。 基于机器学习的作弊检测方法成为近期研究的热点。搜索引擎和网络作弊制造者之间的战争如同一场军备竞赛,每当搜索引擎发现了一个有效的方法并加以使用后,经过一段时间作弊者就找出应对方法,专利技术出新的作弊形式。基于机器学习的方法针对新的作弊形式,通过增加、删除相应特征,保持系统对作弊检测的有效性,而不必修改系统结构。然而基于机器学习的检测方法面临以下两个难题1、机器学习所需样本的获取需要耗费大量人力,成本高;2、互联网数据中信誉好网站比作弊网站更容易获得,作弊与非作弊网站的比例严重不均衡,传统的学习算法很难在不均衡样本学习中取得好的效果。
技术实现思路
为了解决现有机器学习方法所需样本的获取成本高,以及传统的学习算法很难在不均衡样本学习中取得好的效果的问题,本专利技术的目的是减少获取所需样本人力资源,降低成本;在不均衡样本学习中取得好效果,为此本专利技术提供一种基于小样本集的搜索引擎Web作弊检测方法。 为了实现所述的目的,本专利技术基于小样本集的搜索引擎Web作弊检测方法的技术方案如下所述 步骤S1对所有网页样本进行预处理,将样本集划分为训练集、测试集和无标号集; 步骤S2使用划分好的训练集和无标号集进行基于分类器的自学习和基于互联网拓扑结构的链接学习,以扩充训练集; 步骤S3针对扩展后的训练集,采用集成的降采样策略训练分类器,利用训练好的分类器对测试集中的样本进行检测; 步骤S4检测结果的后处理阶段---基于预测作弊度的标号传递,完成搜索引作弊检测。 根据本专利技术的实施例,步骤S2所述的训练集扩充,包括基于分类器的自学习和基于互联网拓扑结构的链接学习。这两个学习过程都是不断迭代的过程,以完成训练集的不断扩充。 根据本专利技术的实施例,所述迭代过程中选择的作弊和非作弊网站的比例与原始训练集中比例相同。 根据本专利技术的实施例,步骤S2所述的基于分类器的自学习,是利用训练集样本训练分类器,对无标号样本集进行学习,利用半监督的自学习过程选择前J1个最大预测置信度的样本与预测标号一起投入训练集。 根据本专利技术的实施例,步骤S2所述的基于互联网拓扑结构的链接学习,是利用训练集样本标注互联网链接图,根据作弊和非作弊网站在链接图中的分布规律进行链接学习,选出J2个具有最大传递置信度的网站,将它们以及预测标号投入训练集。 根据本专利技术的实施例,步骤S3所述的降采样分类策略,采用可调节的降采样比例系数、基于预测作弊度的子分类集成策略,以及算法本身适用于分布式计算。 根据本专利技术的实施例,步骤S4所述的检测结果后处理阶段,是沿互联网拓扑结构进行的基于预测作弊度的标号传递。 本专利技术的训练集扩充算法有效地利用了学习算法的自学习和互联网链接拓扑信息,从一定程度上解决了机器学习方法在Web作弊检测中面临的样本稀缺问题。继承的随机将采样分类策略,有效地利用了互联网上广泛存在的高信誉网站(网页)信息,并且克服了样本不均衡问题。传统的分类问题中,样本之间是相互独立的,而作为检测对象的网站之间存在着相互依赖关系,通过互联网超链接图进行的检测结果优化,正是充分利用了这一点,进一步提高了作弊检测的性能。 附图说明 图1是本专利技术基于小样本集的Web作弊检测总体模块框图; 图2是预处理步骤数据流图; 图3是本专利技术训练集扩充步骤数据流图; 图4是本专利技术基于扩展后训练集的作弊检测及结果优化步骤; 图5是简单的站点链接拓扑关系示例图。 具体实施例方式 下面将结合附图对本专利技术加以详细说明,应指出的是,所描述的实施例仅旨在便于对本专利技术的理解,而对其不起任何限定作用。 为了实现本专利技术的方法,考虑到算法涉及多次重采样和迭代过程,如果在单机实现,最好保证处理器主频不小于2GHz,内存不小于1G,可采用任何常用编程语言编写。 本专利技术提出的基于小样本集的Web作弊检测方法,总体流程如图1所示,具体各步骤数据流由图2、3、4给出。预处理(步骤S1)部分为整个作弊检测工作准备数据;步骤S2是训练集迭代扩充过程,即基于分类器的自学习和基于网络拓扑结构的链接学习过程;步骤S3使用扩充后的训练集训练分类器,并使用学习到的分类器对待检测样本进行检测,在这一过程中使用集成的随机降采样学习策略(ERUS);步骤S4为检测结果的优化步骤,是基于预测作弊度的标号传播本文档来自技高网
...

【技术保护点】
一种基于小样本集的搜索引擎作弊检测方法,其特征在于,步骤如下: 步骤S1:对所有网页样本进行预处理,将样本集划分为训练集、测试集和无标号集; 步骤S2:使用划分好的训练集和无标号集进行基于分类器的自学习和基于互联网拓扑结构的链接学习,以扩充训练集; 步骤S3:针对扩展后的训练集,采用集成的降采样策略训练分类器,利用训练好的分类器对测试集中的样本进行检测; 步骤S4:检测结果的后处理阶段---基于预测作弊度的标号传递,完成搜索引作弊检测。

【技术特征摘要】

【专利技术属性】
技术研发人员:耿光刚王春恒戴汝为李秋丹朱远平
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1