一种识别网站页面的方法和装置制造方法及图纸

技术编号:8107823 阅读:165 留言:0更新日期:2012-12-21 08:11
本发明专利技术公开了一种识别网站页面的方法和装置。所述方法包括:收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析;根据分析结果和预先定义的反钓鱼数据库,调整所述潜在钓鱼网站页面在静态抓取队列中的排序;按照排序对所述静态抓取队列中的所述潜在钓鱼网站页面进行静态抓取;将静态抓取失败的潜在钓鱼网站页面提交至动态抓取队列并进行动态抓取;以及基于所述预先定义的反钓鱼数据库,根据静态抓取和动态抓取获得的数据识别钓鱼网站页面。本发明专利技术实现了对于变种迅速的各种静态和动态反抓取钓鱼网站页面的及时、有效、全面的抓取与识别,极大地提高了反钓鱼网站技术的效率与成功率。

【技术实现步骤摘要】

本专利技术涉及网络安全,具体涉及一种用于识别钓鱼网站页面的方法和装置。
技术介绍
在网络安全领域,典型的反钓鱼系统包括钓鱼数据收集系统(即蜘蛛系统)、钓鱼识别系统、钓鱼数据查杀引擎及钓鱼防杀客户端四部分组成,其中钓鱼数据收集系统负责从海量的互联网数据中进行筛选并下载疑似钓鱼页面,是一个反钓鱼系统的起点,能否快速、全面的发现新的钓鱼数据决定着一个反钓鱼系统质量的优劣。现有的钓鱼数据收集系统(蜘蛛系统)从一些种子页面开始进行抓取,通过对新发 现的页面做链接分析,从中获取新的URL (Uniform Resource Locator,统一资源定位符),然后对URL进行下载,将下载后的内容提交给钓鱼识别系统,钓鱼识别系统对已下载的内容抽取链接,加入待抓取队列,并且如此循环进行。现有的钓鱼数据收集系统在下载过程中主要下载静态页面内容,少数系统可以分析一些简单的动态页面内容。而钓鱼页面数据不同于普通的网页数据,钓鱼页面的作者通常会使用各种方法来防止被反钓鱼系统的爬虫抓取到,例如会使用iframe元素、设置cookie、设置页面定时刷新、和/或收集爬虫IP变换域名等静态或动态的客户端或服务端检测方法,来屏蔽或欺骗蜘蛛的抓取。而且,钓鱼页面通常变化时效性很强,有些在被反钓鱼系统查杀后的几个小时之内就会发生变种,速度非常之快。对于这些特点,传统意义上的蜘蛛系统已经显得力不从心。另外,由于钓鱼数据的易变性,传统意义上的蜘蛛系统在发现和抓取这一整套环节中都严重滞后,因为钓鱼网站制作者通常掌握大量的网站域名,一个钓鱼网站在新生成后,可能只会欺骗一部分用户,然后就会隐匿起来,再换另一部分用户来欺骗。对于传统意义上的蜘蛛系统,要快速发现这些钓鱼网站,并且动态地将这些钓鱼网站的页面数据的抓取顺序提到抓取队列之前,是非常困难的。
技术实现思路
鉴于上述问题,提出了本专利技术,以便提供一种克服上述问题或者至少部分地解决上述问题的用于识别钓鱼网站页面的方法以及相应的装置。依据本专利技术的一个方面,提供了一种用于识别钓鱼网站页面的方法,包括收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析;根据分析结果和预先定义的反钓鱼数据库,调整所述潜在钓鱼网站页面在静态抓取队列中的排序;按照排序对所述静态抓取队列中的所述潜在钓鱼网站页面进行静态抓取;将静态抓取失败的潜在钓鱼网站页面提交至动态抓取队列并进行动态抓取;以及基于所述预先定义的反钓鱼数据库,根据静态抓取和动态抓取获得的数据识别钓鱼网站页面。可选地,所述预先定义的反钓鱼数据库包括钓鱼网站页面的特征信息以及用于确定是否动态抓取潜在钓鱼网站页面的分类信息,所述钓鱼网站页面的特征信息包括IP数据、域名、注册信息、内嵌链接、META标签信息、标题信息、关键词、文档对象模型DOM结构。可选地,所述方法还包括在所述收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析的步骤之后,在所述根据分析结果和预先定义的反钓鱼数据库调整所述潜在钓鱼网站页面在静态抓取队列中的排序的步骤之前,根据分析结果和预先定义的反钓鱼数据库,将符合所述预先定义的反钓鱼数据库中的所述分类信息的潜在钓鱼网站页面提交至动态抓取队列。可选地,所述分析结果包括潜在钓鱼网站页面的页面浏览量PV数据、独立访客量UV数据、以及所述特征信息和所述分类信息。可选地,所述方法还包括 提取所识别出的钓鱼网站页面的特征信息以及分类信息;以及将所述特征信息以及分类信息添加到所述预先定义的反钓鱼数据库。可选地,所述根据分析结果和预先定义的反钓鱼数据库调整所述潜在钓鱼网站页面在静态抓取队列中的排序的步骤包括将具有以下特征的潜在钓鱼网站页面在静态抓取队列中的排序提前(I)在预先定义的时间点后收集到其信息的潜在钓鱼网站页面;和/或(2)页面浏览量PV数据和/或独立访客量UV数据大于预先定义的第一阈值的潜在钓鱼网站页面;和/或(3)与所述预先定义的反钓鱼数据库中的钓鱼网站页面的特征信息匹配程度大于预先定义的第二阈值的潜在钓鱼网站页面。可选地,所述基于所述预先定义的反钓鱼数据库、根据静态抓取和动态抓取获得的数据识别钓鱼网站页面的步骤包括将静态抓取和动态抓取获得的数据中的潜在钓鱼网站页面的特征信息与所述预先定义的反钓鱼数据库中的特征信息进行比较;以及根据比较结果识别钓鱼网站页面。可选地,所述根据比较结果识别钓鱼网站页面的步骤包括根据比较结果中潜在钓鱼网站页面的特征信息与所述预先定义的反钓鱼数据库中的特征信息的匹配情况,确定所述潜在钓鱼网站页面的类别;以及在比较结果中潜在钓鱼网站页面的特征信息与所述预先定义的反钓鱼数据库中所述类别的特征信息的匹配程度大于用于所述类别的阈值的情况下,将所述潜在钓鱼网站页面识别为钓鱼网站页面。可选地,所述静态抓取队列存储用于静态抓取的潜在钓鱼网站页面,所述动态抓取队列存储用于动态抓取的潜在钓鱼网站页面。根据本专利技术的另一方面,提供了一种用于识别钓鱼网站页面的装置,包括收集和分析模块,用于收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析;排序调整模块,用于根据分析结果和预先定义的反钓鱼数据库,调整所述潜在钓鱼网站页面在静态抓取队列中的排序;静态抓取模块,用于按照排序对所述静态抓取队列中的所述潜在钓鱼网站页面进行静态抓取;动态抓取模块,用于将静态抓取失败的潜在钓鱼网站页面提交至动态抓取队列并进行动态抓取;以及第一识别模块,用于基于所述预先定义的反钓鱼数据库,根据静态抓取和动态抓取获得的数据识别钓鱼网站页面。可选地,所述预先定义的反钓鱼数据库包括钓鱼网站页面的特征信息以及用于确定是否动态抓取潜在钓鱼网站页面的分类信息,所述钓鱼网站页面的特征信息包括IP数据、域名、注册信息、内嵌链接、META标签信息、标题信息、关键词、文档对象模型DOM结构。可选地,所述装置还包括提交模块,用于在所述收集和分析模块收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析之后、在所述排序调整模块根据分析结 果和预先定义的反钓鱼数据库调整所述潜在钓鱼网站页面在静态抓取队列中的排序之前,根据分析结果和预先定义的反钓鱼数据库,将符合所述预先定义的反钓鱼数据库中的所述分类信息的潜在钓鱼网站页面提交至动态抓取队列。可选地,所述分析结果包括潜在钓鱼网站页面的页面浏览量PV数据、独立访客量UV数据、以及所述特征信息和所述分类信息。可选地,所述装置还包括提取模块,用于提取所识别出的钓鱼网站页面的特征信息以及分类信息;以及添加模块,用于将所述特征信息以及分类信息添加到所述预先定义的反钓鱼数据库。可选地,所述排序调整模块将具有以下特征的潜在钓鱼网站页面在静态抓取队列中的排序提前(I)在预先定义的时间点后收集到其信息的潜在钓鱼网站页面;和/或(2)页面浏览量PV数据和/或独立访客量UV数据大于预先定义的第一阈值的潜在钓鱼网站页面;和/或(3)与所述预先定义的反钓鱼数据库中的钓鱼网站页面的特征信息匹配程度大于预先定义的第二阈值的潜在钓鱼网站页面。可选地,所述识别模块包括比较模块,用于将静态抓取和动态抓取获得的数据中的潜在钓鱼网站页面的特征信息与所述预先定义的反钓鱼数据库中的特征信息进行比较;以及第二识别模块,用于根据比较结果识别钓鱼网站页面。可选地,所述子识别模块包括类别确本文档来自技高网
...

【技术保护点】
一种用于识别钓鱼网站页面的方法(100),包括:收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析(S101);根据分析结果和预先定义的反钓鱼数据库,调整所述潜在钓鱼网站页面在静态抓取队列中的排序(S103);按照排序对所述静态抓取队列中的所述潜在钓鱼网站页面进行静态抓取(S105);将静态抓取失败的潜在钓鱼网站页面提交至动态抓取队列并进行动态抓取(S107);以及基于所述预先定义的反钓鱼数据库,根据静态抓取和动态抓取获得的数据识别钓鱼网站页面(S109)。

【技术特征摘要】
1.一种用于识别钓鱼网站页面的方法(100),包括 收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析(SlOl); 根据分析结果和预先定义的反钓鱼数据库,调整所述潜在钓鱼网站页面在静态抓取队列中的排序(S103); 按照排序对所述静态抓取队列中的所述潜在钓鱼网站页面进行静态抓取(S105); 将静态抓取失败的潜在钓鱼网站页面提交至动态抓取队列并进行动态抓取(S107);以及 基于所述预先定义的反钓鱼数据库,根据静态抓取和动态抓取获得的数据识别钓鱼网站页面(S109)。2.如权利要求I所述的方法,其中所述预先定义的反钓鱼数据库包括钓鱼网站页面的特征信息以及用于确定是否动态抓取潜在钓鱼网站页面的分类信息,所述钓鱼网站页面的特征信息包括IP数据、域名、注册信息、内嵌链接、META标签信息、标题信息、关键词、文档对象模型DOM结构。3.如权利要求2所述的方法,还包括在所述收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析(SlOl)的步骤之后,在所述根据分析结果和预先定义的反钓鱼数据库调整所述潜在钓鱼网站页面在静态抓取队列中的排序(S103)的步骤之前, 根据分析结果和预先定义的反钓鱼数据库,将符合所述预先定义的反钓鱼数据库中的所述分类信息的潜在钓鱼网站页面提交至动态抓取队列(S102)。4.如权利要求2所述的方法,其中所述分析结果包括潜在钓鱼网站页面的页面浏览量PV数据、独立访客量UV数据、以及所述特征信息和所述分类信息。5.如权利要求I至4中的任一项所述的方法,还包括 提取所识别出的钓鱼网站页面的特征信息以及分类信息(SllO);以及 将所述特征信息以及分类信息添加到所述预先定义的反钓鱼数据库(SI 11)。6.如权利要求I至4中的任一项所述的方法,其中所述根据分析结果和预先定义的反钓鱼数据库调整所述潜在钓鱼网站页面在静态抓取队列中的排序(S103)的步骤包括将具有以下特征的潜在钓鱼网站页面在静态抓取队列中的排序提前 (1)在预先定义的时间点后收集到其信息的潜在钓鱼网站页面;和/或 (2)页面浏览量PV数据和/或独立访客量UV数据大于预先定义的第一阈值的潜在钓鱼网站页面;和/或 (3)与所述预先定义的反钓鱼数据库中的钓鱼网站页面的特征信息匹配程度大于预先定义的第二阈值的潜在钓鱼网站页面。7.如权利要求I至4中的任一项所述的方法,其中所述基于所述预先定义的反钓鱼数据库、根据静态抓取和动态抓取获得的数据识别钓鱼网站页面(S109)的步骤包括 将静态抓取和动态抓取获得的数据中的潜在钓鱼网站页面的特征信息与所述预先定义的反钓鱼数据库中的特征信息进行比较(S109a);以及 根据比较结果识别钓鱼网站页面(S109b)。8.如权利要求7所述的方法,其中所述根据比较结果识别钓鱼网站页面(S109b)的步骤包括 根据比较结果中潜在钓鱼网站页面的特征信息与所述预先定义的反钓鱼数据库中的特征信息的匹配情况,确定所述潜在钓鱼网站页面的类别(S109bl);以及 在比较结果中潜在钓鱼网站页面的特征信息与所述预先定义的反钓鱼数据库中所述类别的特征信息的匹配程度大于用于所述类别的阈值的情况下,将所述潜在钓鱼网站页面识别为钓鱼网站页面(S 109b2 )。9.如权利要求I至4中的任一项所述的方法,其中所述静态抓取队列存储用于静态抓取的潜在钓鱼网站页面,所述动态抓取队列存储用于动态抓取的潜在钓鱼网站页面。10.一种用...

【专利技术属性】
技术研发人员:李晓波刘起
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1