一种多视图网络垃圾页面检测方法技术

技术编号:7471347 阅读:188 留言:0更新日期:2012-07-02 01:25
本发明专利技术公开了提供一种多视图webspam检测方法,该方法包括如下步骤:首先获取训练数据中所有正常页面和spam页面的两视图;然后获取待检测页面的两视图;对获得的两视图各自构造矩阵;求出正常范数及spam范数;比较正常范数与spam范数的大小;若正常范数小于spam范数,则待检测页面为正常页面;若正常范数大于spam范数,则待检测页面为spam页面;若两者相等,则待检测页面随机识别为正常页面或spam页面。它具有对训练数据不平衡性不敏感、可同时检测多种spam页面及检测过程简单等优点。

【技术实现步骤摘要】

本专利技术涉及,属于internet信息检索领域。
技术介绍
部分网站拥有者为获取商业利益,采用不正当手段欺骗搜索引擎网站排序算法, 使不重要网站或页面排序靠前,破坏引擎搜索结果。其相关技术有搜索引擎优化(SEO)及搜索引擎市场(SEM)等,统称为搜索引擎spam,即ffeb spam(网络垃圾页面)。目前Web spam已成为各种Web搜索面临的重要挑战,严重影响信息检索效果,同时ffeb spam发展迅速,新的spamming技术不断出现。Web spam主要三种表现形式基于内容、链接(link)及页面隐藏。目前检测spam页面的方法多采用启发式函数,检测特定形式的spam页面,不能同时检测多种spam页面,检测时间复杂度高,同时对训练数据的不平衡性敏感。所谓训练数据不平衡是指在训练数据中正常页面的数量要远大于spam页面的数量。Web页面数量为海量数据,人工标注页面为正常页面还是spam页面费时费力,只能人工标注部分页面,用标注好的页面训练分类器,对大量的未标注页面进行机器标注,即用学习好的分类器将未标注的页面检测为正常页面或spam页面。检测spam页面的主要技术手段有依据页面内容的方法、基于link的方法、统计方法及图论方法等。基于内容的spam检测依据spam页面内容特征,采用启发式函数对其检测,难以形成统一模型。有些方法通过应用统计技术,分析页面关键词分布检测spam页面, 可用于解决因重复关键字、修改页面内容等对搜索结果页面排序的改变;基于链接的搜索引擎页面排序算法如I^ageRank及HITS,由于忽略了页面内容对页面排序的影响,也可以用来检测基于内容的spam页面。应用机器学习方法在检测内容spam页面时,首先提取页面内容特征,再使用分类技术实现页面检测。基于链接的页面排序算法在搜索引擎中得到广泛应用,可用于检测基于link的 spam页面。启发式方法有二分图方法,依据link邻接矩阵中是否存在相关子图判断链接是否为link spam。另外,通过分析统计上不寻常的链接结构及新的页面排序算法可检测 link spam 页面。近年来,机器学习技术在ffeb spam检测方面得到应用,通过提取页面特征,训练分类器,获得较好的检测性能。但当数据维数较大时,都存在如下问题对训练数据的不平衡性敏感、不能同时检测多种不同的spam页面以及检测时间复杂度高的问题。传统分类器如决策树、神经网络及支持向量机等都假设训练数据中属于不同类的数据基本平衡,即各类数据的数量差异不大。研究表明,一旦当各类数量差异较大时,尤其对于两类问题,当一类数据的数量远多于另一类数据的数量时,通过学习得到的分类器,对数量少的那一类(少数类)的分类准确度将会大大降低。提高少数类的分类准确度往往意义更大。Spam页面数据较少,也就是说,我们收集的页面中绝大部分都是正常页面,而少数为spam页面,降低训练数据不平衡对分类器的影响对提高spam页面的识别率特别重要。
技术实现思路
本专利技术的目的就是为了解决上述问题,提供一种多视图web spam检测方法,该方法只需依据训练数据学习权重矩阵,不需要训练分类器,所以具有对训练数据不平衡性不敏感特点;该方法可同时检测多类spam页面,优于现有只针对特定spam页面检测有效的方法;检测过程简单,只需要根据训练数据学习到权重矩阵、计算范数的差,依据范数差的大小决定新页面识别为正常页面还是spam页面。为了实现上述目的,本专利技术采用如下技术方案一种多视图web spam检测方法,该方法包括如下步骤步骤1 首先获取训练数据中所有正常页面和spam页面的内容视图及链接视图;步骤2 然后获取待检测页面的内容视图及链接视图;步骤3 将步骤1中所有正常页面的内容视图及链接视图各自构造矩阵,得到正常内容矩阵和正常链接矩阵;步骤4:将步骤1中所有spam页面的内容视图及链接视图各自构造矩阵,得到 spam内容矩阵及spam链接矩阵;步骤5 用待检测页面的内容视图及链接视图各自构造矩阵,得到待检测内容矩阵及待检测链接矩阵;步骤6 利用正常内容矩阵和待检测内容矩阵求解权重矩阵W_,利用spam内容矩阵及待检测内容矩阵求解权重矩阵W+ ;步骤7 利用正常链接矩阵及权重矩阵W_求解近似矩阵B1,利用spam链接矩阵及权重矩阵w+求解近似矩阵化;步骤8 利用步骤7中的近似矩阵B1和待检测链接矩阵求解正常范数E1,利用近似矩阵4和待检测链接矩阵求解spam范数E+ ;步骤9 比较正常范数E1与spam范数E+的大小;若正常范数小于spam范数,则待检测页面为正常页面;若正常范数大于spam范数,则待检测页面为spam页面;若两者相等,则待检测页面随机识别为正常页面或spam页面;步骤10 如果待检测页面被识别为正常页面,就被保留下来,否则将待检测页面从页面库中删除,检测结束。 所述的步骤6中,求解权重矩阵I的公式如下min| I -构造出的内容矩阵W_与待测页面的内容矩阵[AJ间的差异性尽可能小。所述的步骤6中,求解权重矩阵W+的公式如下min| | [Aj-[AjffJ |2s. t. IW +1 12 = 1公式表示在满足约束条件IffJI2 = I的情况下,求解使得I I [AJ-[AJffJ I2取得最小值的权重矩阵W+;该最小化表示通过权重W+与[AJ构造出的内容矩阵[AJW+与待测页面P的内容矩阵[AJ间的差异性尽可能小。所述的步骤7中,计算近似矩阵B1和化的公式如下B1 = ff+ (2)公式(1)通过变换矩阵W_和计算待检测页面的近似矩阵B1 ;公式( 通过变换矩阵W+和[BJ计算待检测页面的近似矩阵4。所述的步骤8中,求解正常范数E_和spam范数E+公式如下E_ = I I [Bj-Bj I2 ;E+ = I I [BJ-B2I I2 ;范数的大小表示两个近似矩阵与待检测链接矩阵差异性的大小,范数越大,表示近似矩阵与待检测链接矩阵差异性越大;反之范数越小,表示近似矩阵与待检测链接矩阵差异性越小。本专利技术的有益效果本专利技术提出了一种多视图spam页面检测方法,因其可以同时检测多种类型spam页面,从而提高了检测的效率;同时本专利技术不需要训练分类器,从而避免了训练数据的不平衡对分类效果的影响,检测算法对数据不平衡不敏感。附图说明图1为训练数据的视图转换成矩阵;图2为待检测页面的视图转换成矩阵;图3a为求解权重矩阵I的过程; 图北为求解权重矩阵W+的过程图如为近似矩阵B1计算;图4b为近似矩阵化计算;图5为页面检测过程。具体实施例方式下面结合附图与实施例对本专利技术作进一步说明。本专利技术的目的在于提供一种面向多种spam页面的通用检测方法。为实现上述目的,本专利技术的技术解决方案是提出了页面特征多视图表示的方法, 与传统的页面特征表示方法不同。本方法采用两视图表示一个页面,所述的两视图表示,是指对同一个web页面,既采用基于内容的特征向量表示(称为内容视图),又采用基于超链接的特征向量表示(称为链接视图),即一个页面对应两个视图,分别称为内容视图及链接视图。所述的训练数据是指已经明确标记为正常的页面数据及spam的页面数据。训练数据中标记为正常的所有页面的内容视图构成正常内容矩阵,记为;训练数据中标记为spam的所本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:张化祥
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术