一种对网络数据进行采集的方法和装置制造方法及图纸

技术编号:14600151 阅读:166 留言:0更新日期:2017-02-09 03:28
本发明专利技术实施例公开了一种对网络数据进行采集的方法和装置。其中方法包括:获取预编辑的关键字信息,记录数据分流口中和所述关键字信息相匹配的客户端访问对应服务器的信息;对所述客户端访问对应服务器的信息进行格式化处理生成规则集;将所述规则集发送至数据过滤口以使所述数据过滤口依据所述规则集进行数据采集。本发明专利技术实施例解决了在互联网海量大数据中不能快速采集特定网络数据的问题,实现了对网络中特定数据的快速采集。

【技术实现步骤摘要】

本专利技术实施例涉及数据处理技术,尤其涉及一种对网络数据进行采集的方法和装置。
技术介绍
随着移动互联网和大数据的发展,网络成为信息和文件传输的方便途径,数据安全也越来越受重视。在网络数据监控领域,互联网海量数据巨大。参见图1,互联网数据在本地区的运营商(例如移动或联通)通过分光给网络数据监控官方机构,网络数据监控官方机构通过部署若干个分流和过滤设备使大流量数据(如几十Gb/秒)分流到设备的分流口,每个分流口的数据流量约为1Gb/秒,分流口安排有专门处理此流量的协议解析设备。但是,分流口处理的数据还是海量数据,需要对几百种的协议进行分析。此时用户需要采集的特定数据分布在各个分流口的海量数据中,不利于特定网络数据的快速采集。
技术实现思路
本专利技术提供一种对网络数据进行采集的方法和装置,以实现对网络数据的快速采集。第一方面,本专利技术实施例提供了一种对网络数据进行采集的方法,该方法包括:获取预编辑的关键字信息,记录数据分流口中和所述关键字信息相匹配的客户端访问对应服务器的信息;对所述客户端访问对应服务器的信息进行格式化处理生成规则集;将所述规则集发送至数据过滤口以使所述数据过滤口依据所述规则集进行数据采集。第二方面,本专利技术实施例还提供了一种对网络数据进行采集的装置,该装置包括:信息获取模块,用于获取预编辑的关键字信息,记录数据分流口中和所述关键字信息相匹配的客户端访问对应服务器的信息;规则集生成模块,用于对所述客户端访问对应服务器的信息进行格式化处理生成规则集;数据采集模块,用于将所述规则集发送至数据过滤口以使所述数据过滤口依据所述规则集进行数据采集。本专利技术实施例通过获取数据分流口中与特定数据相匹配的客户端访问对应服务器的信息,根据该客户端访问对应服务器的信息生成规则集,数据过滤口根据该规则集进行数据采集,解决了在互联网海量大数据中不能快速采集特定网络数据的问题,实现了对网络中特定数据的快速采集。附图说明图1是现有技术网络拓扑图;图2是本专利技术实施例一提供的对网络数据进行采集的方法流程图;图3是本专利技术实施例一提供的网络数据报文展示图;图4是本专利技术实施例一提供的格式化过滤规则集的示意图;图5是本专利技术实施例二提供的对网络数据进行采集的方法流程图;图6是本专利技术实施例三提供的对网络数据进行采集的方法流程图;图7是本专利技术实施例四提供的对网络数据进行采集的装置的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图2为本专利技术实施例一提供的对网络数据进行采集的方法的流程图,本实施例可适用于在网络中,对用户需求的特定数据进行采集的情况,该方法可以由对网络数据进行采集的装置来执行,该装置可以采用软件和/或硬件的方式来实现,该装置可集成于具有网络数据采集的终端内,例如移动终端(例如,智能手机、平板电脑)、笔记本电脑和固定终端(例如台式电脑)中。具体包括如下步骤:S110、获取预编辑的关键字信息,记录数据分流口中和所述关键字信息相匹配的客户端访问对应服务器的信息。其中,预编辑的关键字信息指的是用户在本地区客户端想要获取的特定网络数据的关键字信息。示例性的,当本地客户端访问网易新闻的特定数据时,客户端向网易服务器发起GET请求,因此预编辑的关键字信息可以是包括GET关键字和“Host:news.163.com”关键字的信息。本方案中采用GET请求方式对网络数据中的文档进行获取,其中,GET请求方式为获取网络数据的请求方式之一。示例性的,还可以是采用POST请求或HEAD请求,相应的,预编辑的关键字信息可以对应包括POST请求的关键字或HEAD请求的关键字。可选的,所述客户端访问对应服务器的信息包括访问服务器的IP地址和端口。其中,IP(InternetProtocol,互联网协议)地址是IP提供的一种统一的地址格式,为互联网上的每一个网络和每一台主机分配一个逻辑地址,用来屏蔽物理地址的差异。IP是为计算机网络相互连接进行通信而设计的协议。端口指的是设备与外界通讯的出口,可分为虚拟端口和物理端口。其中,客户端访问对应服务器的端口为虚拟端口,例如可以是服务器中的80端、21端或者23端等。由于分流过滤设备可以针对IP地址以及端口进行信息过滤,故本方案中选用客户端访问对应服务器的信息中包括的访问服务器的IP地址和端口直接作为过滤匹配条件。示例性的,将网络中对网易新闻服务器进行访问的数据设置为特定数据,即需要对该访问网易新闻服务器的数据进行采集,本方案中,可随机选取一台分流和过滤设备,从该设备中再随机选取一个分流口,在该分流口的HTTP内容中匹配GET关键字以及“Host:news.163.com”关键字,如果不匹配,则处理下一个报文;如果匹配,则记录目的IP地址和目的端口。示例性的,匹配到的客户端访问对应服务器的IP地址可以是:123.125.101.66,客户端访问对应服务器的端口可以是:80。图3是本专利技术实施例一提供的网络数据报文展示图,在图3中可以看到通过“GET/HTTP”以及“HOST:news.163.com”指令进行分流口中关键词的匹配。需要说明的是,为了使记录到的在分流口中和关键字信息相匹配的客户端访问对应服务器的信息的完整性(即避免信息遗漏),可在分流与过滤设备中的若干个分流口中随机选择三个分流口对数据进行检测,匹配数据的特征并记录符合特征匹配的客户端访问对应服务器的IP地址信息和客户端访问对应服务器的端口信息。示例性的,从该台分流和过滤设备的随机选取的第2、3分流口的数据的HTTP内容中匹配相应关键字,如果不匹配,则处理下一个报文;如果匹配,则记录客户端访问对应服务器的信息的IP地址和端口,继续处理下一个报文。示例性的,记录的访问服务器的IP地址和端口可以有124.165.204.43:80、60.220.194.210:80,最后将记录的上述IP地址和对应的端口进行汇总。示例性的,汇总表如下所示:序号IP地址目的端口1123.125.101.66802124.165.204.4380360.220.194.21080………其中,选取了表中的前三项记录内容,序号1-3对应的IP地址分别是“123.125.101.66”“124.165.204.43”“60.220.194.210”,端口均为80。S120、对所述客户端访问对应服务器的信息进行格式化处理生成规则集。其中,规则(Rule)是一条关于数据的声明性语句,在规则中声明了在运行时计算的条件和根据结果执行不同的操作。规则集(RuleSet)由多个规则组织而成,规则与规则集均是程序代码。具体的,将所有符合特征匹配的IP地址和端口进行汇总,IP地址和端口的数量可以是几十个、一百多个或者几百个。将汇总后的IP地址和端口进行格式化处理,生成规则集。图4是本专利技术实施例一提供的格式化过滤规则集的示意图,示例性的,将规则集分为上行过滤规则和下行过滤规则,上行指客户端发送给服务器的请求,上述GET/POST均为客户端向服务器的请求;下行指服务器给客户端的响应。其中需要过滤的IP地址和对本文档来自技高网...

【技术保护点】
一种对网络数据进行采集的方法,其特征在于,包括:获取预编辑的关键字信息,记录数据分流口中和所述关键字信息相匹配的客户端访问对应服务器的信息;对所述客户端访问对应服务器的信息进行格式化处理生成规则集;将所述规则集发送至数据过滤口以使所述数据过滤口依据所述规则集进行数据采集。

【技术特征摘要】
1.一种对网络数据进行采集的方法,其特征在于,包括:获取预编辑的关键字信息,记录数据分流口中和所述关键字信息相匹配的客户端访问对应服务器的信息;对所述客户端访问对应服务器的信息进行格式化处理生成规则集;将所述规则集发送至数据过滤口以使所述数据过滤口依据所述规则集进行数据采集。2.根据权利要求1所述的方法,其特征在于,在对所述客户端访问对应服务器的信息进行格式化处理生成规则集之前,还包括:对记录的所述客户端访问对应服务器的信息进行去重处理。3.根据权利要求1所述的方法,其特征在于,所述数据过滤口依据所述规则集进行数据采集包括:所述数据过滤口依据所述规则集中的所述客户端访问对应服务器的信息进行报文匹配,输出和所述客户端访问对应服务器的信息匹配的数据信息。4.根据权利要求3所述的方法,其特征在于,在输出和所述客户端访问对应服务器的信息匹配的数据信息之后,还包括:对所述数据信息进行数据解析。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述客户端访问对应服务器的信息包括访问服务器时的IP地址和端口。6.一种对网络数据进行采集...

【专利技术属性】
技术研发人员:施宏伟陈锐
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1