一种多视图网络垃圾页面检测方法技术

技术编号：7471347 阅读：188 留言：0更新日期：2012-07-02 01:25

本发明专利技术公开了提供一种多视图webspam检测方法,该方法包括如下步骤：首先获取训练数据中所有正常页面和spam页面的两视图；然后获取待检测页面的两视图；对获得的两视图各自构造矩阵；求出正常范数及spam范数；比较正常范数与spam范数的大小；若正常范数小于spam范数，则待检测页面为正常页面；若正常范数大于spam范数，则待检测页面为spam页面；若两者相等，则待检测页面随机识别为正常页面或spam页面。它具有对训练数据不平衡性不敏感、可同时检测多种spam页面及检测过程简单等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及，属于internet信息检索领域。
技术介绍
部分网站拥有者为获取商业利益，采用不正当手段欺骗搜索引擎网站排序算法，使不重要网站或页面排序靠前，破坏引擎搜索结果。其相关技术有搜索引擎优化(SEO)及搜索引擎市场(SEM)等，统称为搜索引擎spam，即ffeb spam(网络垃圾页面)。目前Web spam已成为各种Web搜索面临的重要挑战，严重影响信息检索效果，同时ffeb spam发展迅速，新的spamming技术不断出现。Web spam主要三种表现形式基于内容、链接(link)及页面隐藏。目前检测spam页面的方法多采用启发式函数，检测特定形式的spam页面，不能同时检测多种spam页面，检测时间复杂度高，同时对训练数据的不平衡性敏感。所谓训练数据不平衡是指在训练数据中正常页面的数量要远大于spam页面的数量。Web页面数量为海量数据，人工标注页面为正常页面还是spam页面费时费力，只能人工标注部分页面，用标注好的页面训练分类器，对大量的未标注页面进行机器标注，即用学习好的分类器将未标注的页面检测为正常页面或spam页面。检测spam页面的主要技术手段有依据页面内容的方法、基于link的方法、统计方法及图论方法等。基于内容的spam检测依据spam页面内容特征，采用启发式函数对其检测，难以形成统一模型。有些方法通过应用统计技术，分析页面关键词分布检测spam页面，可用于解决因重复关键字、修改页面内容等对搜索结果页面排序的改变；基于链接的搜索引擎页面排序算法如I^ageRank及HITS，由于忽略了页面内容对页面排序的影响，也可...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：张化祥，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人