一种用于处理大量数据的数据处理系统及其处理方法技术方案

技术编号:19178130 阅读:26 留言:0更新日期:2018-10-17 00:30
本发明专利技术公开了一种用于处理大量数据的数据处理系统及其处理方法,所述系统包括分析前处理子系统(1)、分析处理服务器(2)、存储服务器(3)和盘柜(4),所述分析前处理子系统(1)包括物理防火墙和至少两台虚拟机;所述方法如下进行:先在分析前处理子系统(1)进行分析前数据处理,然后将前处理后的数据输出至分析处理服务器(2),并在分析处理服务器(2)内进行数据分析,获得分析数据,且将分析数据输出至存储服务器(3)和盘柜(4),最后在存储服务器(3)上查询分析数据。本发明专利技术所述系统将数据分析前处理、数据分析、数据存储分别在不同的服务器上进行,这样减少了在一台物理机上的负载,进而提高了各处理过程的处理速度。

A data processing system for processing large amounts of data and its processing method

A data processing system for processing large amounts of data and a processing method thereof are disclosed. The system comprises an analysis pre-processing subsystem (1), an analysis and processing server (2), a storage server (3) and a disk holder (4), and the analysis pre-processing subsystem (1) includes a physical firewall and at least two virtual machines; the method is as follows. Processing: First, the pre-processing subsystem (1) processes the data before analysis, then outputs the pre-processing data to the analysis processing server (2), and analyzes the data in the analysis processing server (2), obtains the analysis data, and outputs the analysis data to the storage server (3) and the disk cabinet (4), finally in the storage server (3). Query and analyze data. The system of the invention carries out data analysis pretreatment, data analysis and data storage on different servers respectively, thus reducing the load on a physical machine, thereby improving the processing speed of each processing process.

【技术实现步骤摘要】
一种用于处理大量数据的数据处理系统及其处理方法
本专利技术涉及数据处理领域,尤其涉及大量数据的,特别地,涉及一种用于处理大量数据的数据处理系统及其处理方法。
技术介绍
在实际应用中,为了从大量数据中得到相关的结论或判断,需要采用适当的统计分析方法对所述大量数据进行分析。但是由于大量数据的数据量较大、且为不信任数据,因此,在进行数据分析前需要对大量数据进行前处理。其中,所述不信任数据是指数据源为网络或无法认证可靠性的数据供应商,其可能含有病毒或木马程序,若直接将这些数据接入系统进行数据分析,会造成不可估量的损失。并且,在不信任数据中可能存在一些后期分析时不需要的垃圾数据,如果不对所述垃圾数据在数据分析前进行处理,很可能会增大数据分析的难度,并且导致数据分析不精确等。因此,在对大量数据进行分析前处理。在现有技术中,一般采用杀毒软件进行大量数据分析前处理,但是,采用杀毒软件只能进行杀毒,而不能对数据进行筛选处理,过滤掉不需要的垃圾数据,从而减轻后期分析的工作量。在现有技术有,在对大量数据进行分析前处理、数据分析以及后期数据查询和数据备份时,是在一台物理机上进行,这样,会对所述物理机造成较大负荷,进而使得分析前处理和分析处理的速度较低。因此,亟需一种用于处理大量数据的数据处理系统及其处理方法。
技术实现思路
为了克服上述问题,本专利技术人进行了锐意研究,设计出一种处理大量数据的数据处理系统及其处理方法,其中,将多台虚拟机与物理防火墙联用,进行数据分析前处理,然后在分析处理服务器和存储服务器上分别进行数据分析和数据存储,这样,使得数据分析前处理、数据分析以及后期数据存储在不同服务器上进行,共同形成用于处理大量数据的数据处理系统及其处理方法,从而完成本专利技术。本专利技术一方面提供了一种,具体体现在以下方面:(1)一种用于处理大量数据的数据处理系统,其中,所述系统包括分析前处理子系统1,用于对在数据分析前对数据进行处理,并将处理后的数据输出给分析处理服务器2;分析处理服务器2,用于进行数据分析,并分别向存储服务器3和盘柜4输出分析数据;存储服务器3,用于储存分析数据,以及数据查询;和盘柜4,用于对分析处理服务器2输出的分析数据进行备份;其中,所述分析前处理子系统1包括物理防火墙和至少两台虚拟机,其中,所述虚拟机中至少有两台虚拟机处于不同的局域网中。(2)根据上述(1)所述的系统,其中,所述系统包括第一虚拟机11、第二虚拟机12和物理防火墙13,其中,所述第一虚拟机11和所述第二虚拟机12处于不同的局域网中;所述大量数据通过物理防火墙13从第一虚拟机11传输给第二虚拟机12,再由第二虚拟机12通过物理防火墙13输出数据分析系统;所述第一虚拟机11用于对大量数据进行预处理,所述物理防火墙13用于预处理后的数据进行查杀,所述第二虚拟机用于对查杀后的数据进行数据核实及再处理。(3)根据上述(1)或(2)所述的系统,其中,所述第一虚拟机11包括数据接收模块111,用于接收需要处理的大量数据;数据预处理模块112,用于对第一虚拟机11接收的大量数据进行预处理;和数据输出与统计模块113,用于对第一虚拟机11预处理后的数据进行输出给物理防火墙13,并对输出数据中的文件个数进行统计。(4)根据上述(1)至(3)之一所述的系统,其中,所述数据预处理模块112包括空文件处理子模块1121,用于搜索大量数据中的空文件,并对搜索到的空文件移动至文件回收站;属性筛选子模块1122,用于通过文件属性筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;和稀疏文件处理子模块1123,用于对稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,其中,所述稀疏文件指文件的实际占用空间小于系统显示的文件大小的文件;优选地,所述数据预处理模块112还包括可执行文件处理子模块1124,用于搜索大量数据中的可执行文件,并进行过滤处理;非二进制文件处理子模块1125,用于搜索大量数据中的非二进制文件,并进行过滤处理;有损文件处理子模块1126,用于搜索大量数据中的有损文件,并进行过滤处理;和暂不分析文件处理子模块1127,用于对暂时不进行后期分析的文件进行过滤处理,优选为移动至文件回收站。(5)根据上述(1)至(4)之一所述的系统,其中,所述第二虚拟机12包括数据接收与统计模块1121,用于接收物理防火墙13传输的查杀后的数据,并对所述数据中的文件个数进行统计;数据复核模块1122,用于将所述数据接收与统计模块1121得到的文件统计结果与所述数据输出与统计模块113得到的文件统计结果进行比对,以确定在物理防火墙13的查杀过程中是否有文件丢失;和数据输出模块1123,用于将经第二虚拟机12再处理后的数据输出给物理防火墙13;任选地,还包括数据再处理模块124,用于对查杀后的数据进行再处理。(6)根据上述(1)至(5)之一所述的系统,其中,所述数据再处理模块124包括空文件再处理子模块1241,用于搜索经查杀后的数据中的空文件,并对搜索到的空文件移动至文件回收站;属性再筛选子模块1242,用于通过文件属性在经查杀后的数据中筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;稀疏文件再处理子模块1243,用于对经查杀后的数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站;可执行文件再处理子模块1244,用于搜索经查杀后的数据中的可执行文件,并进行过滤处理;非二进制文件再处理子模块1245,用于搜索经查杀后的数据中的非二进制文件,并进行过滤处理;有损文件再处理子模块1246,用于搜索经查杀后的数据中的有损文件,并进行过滤处理;和暂不分析文件再处理子模块1247,用于对暂时不进行后期分析的文件进行过滤处理,优选为移动至文件回收站。本专利技术另一方面提供了一种大量数据的处理方法,具体体现在以下方面:(7)一种大量数据处理方法,优选利用上述(1)至(6)所述数据处理系统进行,其中,所述系统包括以下步骤:步骤1、在分析前处理子系统1中对大量数据进行过滤和查杀,并将处理后的数据输出给分析处理服务器2;步骤2、分析处理服务器2接收到经分析前处理子系统1处理后的数据,进行数据分析,并将分析数据分别输出给存储服务器3和盘柜4;步骤3、在存储服务器3内进行分析数据的查询;优选地,步骤1包括以下子步骤:步骤1-1、获得大量数据,并在第一虚拟机11内对其进行预处理,并将预处理后的数据输出给物理防火墙13;步骤1-2、物理防火墙13接收到第一虚拟机11输出的数据,并对其进行查杀,然后将查杀后的数据传输给第二虚拟机12;步骤1-3、第二虚拟机12接收物理防火墙13传输的数据,并对所述数据进行文件核实和再处理,然后将再处理后的数据再次传输给物理防火墙13;步骤1-4、物理防火墙13接收到第二虚拟机12输出的数据,并将所述数据输出给数据分析系统,进行数据分析。(8)根据上述(7)所述的方法,其中,步骤1-1包括以下子步骤:步骤1-1-1、利用数据接收模块111获得需要处理的大量数据;步骤1-1-2、利用数据预处理模块112对所述大量数据进行预处理,获得预处理后的数据;步骤1-1-3、将预处理后的数据输出给物理防火墙13,本文档来自技高网...

【技术保护点】
1.一种用于处理大量数据的数据处理系统,其特征在于,所述系统包括分析前处理子系统(1),用于对在数据分析前对数据进行处理,并将处理后的数据输出给分析处理服务器(2);分析处理服务器(2),用于进行数据分析,并分别向存储服务器(3)和盘柜(4)输出分析数据;存储服务器(3),用于储存分析数据,以及数据查询;和盘柜(4),用于对分析处理服务器(2)输出的分析数据进行备份;其中,所述分析前处理子系统(1)包括物理防火墙和至少两台虚拟机,其中,所述虚拟机中至少有两台虚拟机处于不同的局域网中。

【技术特征摘要】
1.一种用于处理大量数据的数据处理系统,其特征在于,所述系统包括分析前处理子系统(1),用于对在数据分析前对数据进行处理,并将处理后的数据输出给分析处理服务器(2);分析处理服务器(2),用于进行数据分析,并分别向存储服务器(3)和盘柜(4)输出分析数据;存储服务器(3),用于储存分析数据,以及数据查询;和盘柜(4),用于对分析处理服务器(2)输出的分析数据进行备份;其中,所述分析前处理子系统(1)包括物理防火墙和至少两台虚拟机,其中,所述虚拟机中至少有两台虚拟机处于不同的局域网中。2.根据权利要求1所述的系统,其特征在于,所述分析前处理子系统包括第一虚拟机(11)、第二虚拟机(12)和物理防火墙(13),其中,所述第一虚拟机(11)和所述第二虚拟机(12)处于不同的局域网中;所述大量数据通过物理防火墙(13)从第一虚拟机(11)传输给第二虚拟机(12),再由第二虚拟机(12)通过物理防火墙(13)输出数据分析系统;所述第一虚拟机(11)用于对大量数据进行预处理,所述物理防火墙(13)用于预处理后的数据进行查杀,所述第二虚拟机用于对查杀后的数据进行数据核实及再处理。3.根据权利要求1或2所述的系统,其特征在于,所述第一虚拟机(11)包括数据接收模块(111),用于接收需要处理的大量数据;数据预处理模块(112),用于对第一虚拟机(11)接收的大量数据进行预处理;和数据输出与统计模块(113),用于对第一虚拟机(11)预处理后的数据进行输出给物理防火墙(13),并对输出数据中的文件个数进行统计。4.根据权利要求1至3之一所述的系统,其特征在于,所述数据预处理模块(112)包括空文件处理子模块(1121),用于搜索大量数据中的空文件,并对搜索到的空文件移动至文件回收站;属性筛选子模块(1122),用于通过文件属性筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;和稀疏文件处理子模块(1123),用于对稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,其中,所述稀疏文件指文件的实际占用空间小于系统显示的文件大小的文件;优选地,所述数据预处理模块(112)还包括可执行文件处理子模块(1124),用于搜索大量数据中的可执行文件,并进行过滤处理;非二进制文件处理子模块(1125),用于搜索大量数据中的非二进制文件,并进行过滤处理;有损文件处理子模块(1126),用于搜索大量数据中的有损文件,并进行过滤处理;和暂不分析文件处理子模块(1127),用于对暂时不进行后期分析的文件进行过滤处理,优选为移动至文件回收站。5.根据权利要求1至4之一所述的系统,其特征在于,所述第二虚拟机(12)包括数据接收与统计模块(121),用于接收物理防火墙(13)传输的查杀后的数据,并对所述数据中的文件个数进行统计;数据复核模块(122),用于将所述数据接收与统计模块(121)得到的文件统计结果与所述数据输出与统计模块(113)得到的文件统计结果进行比对,以确定在物理防火墙(13)的查杀过程中是否有文件丢失;和数据输出模块(123),用于将经第二虚拟机(12)再处理后的数据输出给物理防火墙(13);任选地,还包括数据再处理模块(124),用于对查杀后的数据进行再处理。6.根据权利要求1至5之一所述的系统,其特征在于,所述数据再处理模块(124)包括空文件再处理子模块(1241),用于搜索经查杀后的数据中的空文件,并对搜索到的空文件移动至文件回收站;属性再筛选子模块(1242),用于通过文件属性在经查杀后的数据中筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;稀疏文件再处理子模块(1243),用于对经查杀后的数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站;可执行文件再处理子模块(1244),用于搜索经查杀后的数据中的可执行文件,并进行过滤处理;非二进制文件再处理子模块(1245),用于搜索经查杀后的数据中的非二进制文件,并进行过滤处理;有损文件再处理子模块(1246),用于搜索经查杀后的数据中的有损文件,并进行过滤处理;和暂不分析文件再处理子模块(1247),用于对暂时不进行后期分析的文件进行过滤处理,优选为移动至文件回收站。7.一种大量数据处理方法,优选利用权利要求1至6所述数据处理系统进行,其特征在于,所述系统包括以下步骤:步骤1、利用分析前处理子系统(1)中对大量数据进行过滤和查杀,并将处理后的数据输出给分析处理服务器(2);步骤2、分析处理服务器(2)接收到经分析前...

【专利技术属性】
技术研发人员:张守义
申请(专利权)人:北京宸信征信有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1