通过网页多视图数据关联组合识别垃圾网页的方法技术

技术编号:7917712 阅读:192 留言:0更新日期:2012-10-25 02:43
本发明专利技术涉及一种通过网页多视图数据关联组合识别垃圾网页的方法。它首先提取已标记网页的内容特征数据及超链接特征数据,分别称为内容视图及链接视图,并表示为已标记网页的内容矩阵和链接矩阵;利用典型相关分析及其相关改进方法,获取内容视图及链接视图的最大相关投影矩阵;提取未标记网页的内容矩阵及链接矩阵;利用最大相关投影矩阵生成网页新的内容矩阵及链接矩阵;采用不同的组合方式,生成网页单视图数据;用已标记网页单视图数据训练分类器,将未标记网页识别为正常网页或垃圾网页。本发明专利技术解决了如何处理垃圾网页特征的问题,可有效提高垃圾网页的识别精度;同时由于对数据实现了降维,从而提高了识别效率。

【技术实现步骤摘要】

本专利技术涉及一种,属于internet信息检索领域。
技术介绍
网络已经成为最主要的信息来源,人们通过信息检索(IR)查找相关信息。用户在使用搜索引擎检索信息时,往往只选取排名靠前的几条结果,某些网站为了达到商业目的利用一些专门为其他网站提供提高排名服务的盈利组织(如SEO) . Yahoo! Research Barcelona, 2008.]误导和欺骗用户,严重影响了用户获取有用信息。由此可见,对垃圾网页进行有效检测是一个亟待解决的问题。 目前垃圾网页主要分为三种类型基于内容的垃圾网页,基于链接的垃圾网页和网页隐藏//Proceedings of the30th Annual International ACM SIGIR Conference on Research and Developmentin Information Retrieval. New York, USA: ACM, 2007:423-430]。基于内容的垃圾网页通过恶意制作网页内容(如插入与流行的查询条件相关的关键字)提高搜索排名,通常使用基于语言模型//Proceedingsof the 5th In本文档来自技高网...

【技术保护点】
一种通过网页多视图数据关联组合识别垃圾网页的方法,其特征是,首先提取已标记网页的内容特征数据及超链接特征数据,分别称为内容视图及链接视图,并表示为已标记网页的内容矩阵和链接矩阵;利用典型相关分析及其相关改进方法,获取内容视图及链接视图的最大相关投影矩阵;提取未标记网页的内容矩阵及链接矩阵;利用最大相关投影矩阵生成网页新的内容矩阵及链接矩阵;采用不同的组合方式,生成网页单视图数据;用已标记网页单视图数据训练分类器,将未标记网页识别为正常网页或垃圾网页。

【技术特征摘要】

【专利技术属性】
技术研发人员:张化祥高爽
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1