一种基于小样本集的搜索引擎作弊检测方法技术

技术编号：2820694 阅读：363 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及互联网信息检索，公开一种基于小样本集的互联网作弊检测方法，以打击日益严峻的搜索引擎作弊行为，本发明专利技术针对检测样本收集成本高这一难题，利用基于分类器的自学习和基于互联网拓扑结构的链接学习过程的迭代执行，不断扩充训练集，以实现在小样本集下对搜索引擎作弊进行检测，并在识别过程中采用集成的降采样策略，充分利用了互联网上广泛存在的高信誉网站所包含的信息。最后进行沿互联网拓扑结构的基于预测作弊度的标号传递，以实现检测结果优化。利用实验表明这一方法能有效地对作弊行为进行检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息检索和搜索引擎
，是一种小样本下搜索引擎作弊检测的方法。
技术介绍
互联网作为有史以来最大的信息库，其内容仍在以指数级增长。互联网搜索已经成为人们日常生活的一部分，CNNIC2006年7月发布的报告称搜索引擎以66.3％的比例高居网民最常使用的网络服务首位。 N.Eiron等学者使用著名的PageRank算法对1亿网页进行排序，结果发现排在最前面的20个网站中有11个是色情网站，这些网站通过篡改超链接以获取靠前的排名。根据美国商业调查局的调查，2006年，美国的电子商务销售额达到1141亿美元，比2005年的930亿美元增长了22.7％。而2007年，这一统计的第一个季度就达到了315亿美元，比2006年同期增长了18.4％。Bernard J.Jansen和Amanda Spink的研究结果显示，大约80％的用户在使用搜索引擎时只会浏览前3页的返回结果。互联网上巨大的利润和搜索引擎的门户作用，驱使很多网站管理者和网页制作者想方设法使其站点和页面变得有名，以期待用户在进行相关内容查询时，排在结果的前列。互联网作弊(Web Spam)，又叫搜索引擎作弊，是指采用一些迷惑、欺骗搜索引擎的手段，使得Web页面在检索结果中的排名高于实际应得排名的行为，它导致搜索引擎检索结果的质量严重下降。互联网作弊可以分为内容作弊、链接作弊和隐藏作弊三类。内容作弊指网站利用内容信息欺骗搜索引擎，提高某些页面的重要性，包含关键词作弊、针对标题作弊等。链接作弊指作弊网站针对PageRank算法构造出一些网络链接结构，迷惑搜索引擎排序算法，从而提...

【技术保护点】
一种基于小样本集的搜索引擎作弊检测方法，其特征在于，步骤如下：　步骤Ｓ１：对所有网页样本进行预处理，将样本集划分为训练集、测试集和无标号集；　步骤Ｓ２：使用划分好的训练集和无标号集进行基于分类器的自学习和基于互联网拓扑结构的链接学习，以扩充训练集；　步骤Ｓ３：针对扩展后的训练集，采用集成的降采样策略训练分类器，利用训练好的分类器对测试集中的样本进行检测；　步骤Ｓ４：检测结果的后处理阶段－－－基于预测作弊度的标号传递，完成搜索引作弊检测。

【技术特征摘要】

【专利技术属性】
技术研发人员：耿光刚，王春恒，戴汝为，李秋丹，朱远平，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人