一种搜索引擎作弊检测的优化方法技术

技术编号：4201493 阅读：333 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种搜索引擎作弊检测的优化方法，该方法包括：步骤Ｓ１：预处理所有网页和超链接，进行特征提取，针对提取的特征进行初步作弊检测；步骤Ｓ２：在初步作弊检测结果的基础上，进行二级特征提取，提取出聚类特征、传递特征和近邻特征；步骤Ｓ３：在初步作弊检测结果和二级特征提取结果的基础上，采用机器学习算法对作弊进行再检测，并生成检测结果。利用本发明专利技术，解决了现有技术中启发式作弊检测方法的不稳定性问题，并最大程度上优化了搜索引擎作弊检测的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息检索和搜索引擎
，尤其涉及一种搜索引擎作弊检测的优化方法。
技术介绍
互联网作为有史以来最大的信息库，其内容仍在以指数级增长。互联网搜索已经成为人们日常生活的一部分，CNNIC2007年7月发布的报告称网民中每日使用搜索引擎的比例高达61.91%。N. Eiron等学者使用著名的PageRank算法对1亿网页进行排序，结果发现排在最前面的20个网站中有11个是色情网站，这些网站通过篡改超链接以获取靠前的排名。根据美国商业调查局的调查，2006 年，美国的电子商务销售额达到1141亿美元，比2005年的930亿美元增长了 22.7%。而2007年，这一统计的第一个季度就达到了 315亿美元，比2006年同期增长了 18.4%。BernardJ. Jansen禾Q Amanda Spink 的研究结果显示，大约80%的用户在使用搜索引擎时只会浏览前3页的返回结果。互联网上巨大的利润和搜索引擎的门户作用，驱使很多网站管理者和网页制作者想方设法使其站点和页面变得有名，以期待用户在进行相关内容查询时，排在结果的前列。搜索引擎作弊(Web Spam)，又叫搜索引擎作弊，是指采用一些迷惑、欺骗搜索引擎的手段，使得 Web页面在检索结果中的排名高于实际应得排名的行为，它导致搜索引擎检索结果的质量严重下降。互联网作弊广义上可以分为内容作弊、链接作弊两类。内容作弊指网站利用内容信息欺骗搜索引擎，提高某些页面的重要性，包含关键词作弊、针对标题作弊等。链接作弊指作弊网站针对PageRank算法构造出一些网络链接结构，迷惑搜索引...

【技术保护点】
一种搜索引擎作弊检测的优化方法，其特征在于，该方法包括：　步骤Ｓ１：预处理所有网页和超链接，进行特征提取，针对提取的特征进行初步作弊检测；　步骤Ｓ２：在初步作弊检测结果的基础上，进行二级特征提取，提取出聚类特征、传递特征和近邻特征；　步骤Ｓ３：在初步作弊检测结果和二级特征提取结果的基础上，采用机器学习算法对作弊进行再检测，并生成检测结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：耿光刚，李秋丹，王春恒，戴汝为，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人