一种识别作弊网页的方法及装置制造方法及图纸

技术编号:16837413 阅读:59 留言:0更新日期:2017-12-19 19:55
本发明专利技术公开了一种识别作弊网页的方法及装置,所述方法包括:获取用于生成目标网页的源文件数据;利用预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式;如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页。对于经页面渲染得到的网页内容,本发明专利技术实施例能够确定其中是否嵌入作弊信息,从而能够提高作弊网页的识别率。

A method and device for identifying cheating web pages

The invention discloses a device and method of identifying cheating \, the method comprises: acquiring data generated source file to the target web; using pre established ways of cheating in the library all the way to\ cheat, cheat the data source file, the web spam refers to the embedding of cheating web page source data obtained in the analysis of the way; if from the cheating, at least one of a \cheating way in the library, it will identify the target of\ cheating \. For webpage content obtained by page rendering, the embodiment of the invention can determine whether there is cheating information in it, so as to improve the recognition rate of cheating web pages.

【技术实现步骤摘要】
一种识别作弊网页的方法及装置
本专利技术涉及信息处理
,尤其涉及一种识别作弊网页的方法及装置。
技术介绍
随着网络信息的不断增长,人们通常利用搜索引擎从网络上查询信息,而一个网页能否在搜索引擎的排名中占有比较靠前的位置,这在很大程度上决定了该网页的被访问量,因此,一些网站不是通过提高网页质量来提高其在搜索引擎中的排名,而是根据搜索引擎对网页的排序特点,采用欺骗手段来提高网页排名,这就是网页作弊,而采用了欺骗手段的网页被称为作弊网页。网页作弊方式主要分为内容作弊、链接作弊、以及欺骗爬虫作弊。其中,所述内容作弊,是在作弊网页中添加一些热门的查询词,这些热门词汇被添加在作弊网页的各个不同的域里面,使得作弊网页能够在用户进行热门查询时被检索到,并且获得较高的相关性评分,从而达到提升作弊网页排名的目的;所述链接作弊,是通过构建链接关系来误导网页排名(PageRank)算法和超文本敏感标题搜索(Hypertext-InducedTopicSearch,简称HITS)算法,从而提高作弊网页的重要性评分,进而达到提升作弊网页排名的目的;所述欺骗爬虫作弊,是在搜索引擎要进行页面抓取的时候,作弊网本文档来自技高网...
一种识别作弊网页的方法及装置

【技术保护点】
一种识别作弊网页的方法,其特征在于,包括:获取用于生成目标网页的源文件数据;利用预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式;如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页。

【技术特征摘要】
1.一种识别作弊网页的方法,其特征在于,包括:获取用于生成目标网页的源文件数据;利用预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式;如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页。2.根据权利要求1所述的方法,其特征在于,所述作弊方式库可以通过以下方式建立:获取测试样本集中每一测试样本网页中的测试网页内容,所述测试网页内容是通过解析所述测试样本网页的源文件、且利用解析得到的测试网页数据进行页面渲染后生成的网页内容;根据所述测试网页内容中的至少一个网页特征判断所述测试样本网页是否为作弊网页;如果所述测试样本网页被判断为作弊网页,则分析所述解析得到的测试网页数据,确定所述测试样本网页用于实现网页作弊的至少一种网页作弊方式,保存在作弊方式库中。3.根据权利要求2所述的方法,其特征在于,所述根据所述测试网页内容中的至少一个网页特征判断所述测试样本网页是否为作弊网页,包括:确定所述测试网页内容中关于网页特征集中各个网页特征的测试特征向量,将确定的各个测试特征向量作为作弊分类器的输入参数,以利用所述作弊分类器判断所述测试样本网页是否为作弊网页;所述作弊分类器通过以下步骤获得:获取训练样本集中每一训练样本网页的完整网页内容;所述训练样本集中的训练样本网页包括已确定的作弊网页和已确定的非作弊网页;确定每一训练样本网页的完整网页内容中关于所述网页特征集中各个网页特征的训练特征向量;利用所有训练样本网页的所述训练特征向量训练得到一个用于识别作弊网页的作弊分类器。4.根据权利要求3所述的方法,其特征在于,所述网页特征集中包括以下一个或多个网页特征:网页中嵌入了用于网页作弊的框架Iframe;网页具有重定向一个作弊网页的功能;网页动态页面中包含了与网页静态页面无关的内容,所述网页动态页面是通过解析网页源文件、且利用解析得到的网页数据进行页面渲染后生成的,所述网页静态页面是利用网页源文件中存在的网页内容直接生成的;网页中包含有非法内容和/或违禁内容。5.根据权利要求4所述的方法,其特征在于,所述网页中嵌入了用于网页作弊的框架Iframe,包括:网页中嵌入的Iframe遮挡了网页的部分或全部内容,和/或,所述Ifr...

【专利技术属性】
技术研发人员:李健许静芳
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1