一种用于处理大量数据的数据处理系统及其处理方法技术方案

技术编号：19178130 阅读：26 留言：0更新日期：2018-10-17 00:30

本发明专利技术公开了一种用于处理大量数据的数据处理系统及其处理方法，所述系统包括分析前处理子系统(1)、分析处理服务器(2)、存储服务器(3)和盘柜(4)，所述分析前处理子系统(1)包括物理防火墙和至少两台虚拟机；所述方法如下进行：先在分析前处理子系统(1)进行分析前数据处理，然后将前处理后的数据输出至分析处理服务器(2)，并在分析处理服务器(2)内进行数据分析，获得分析数据，且将分析数据输出至存储服务器(3)和盘柜(4)，最后在存储服务器(3)上查询分析数据。本发明专利技术所述系统将数据分析前处理、数据分析、数据存储分别在不同的服务器上进行，这样减少了在一台物理机上的负载，进而提高了各处理过程的处理速度。

A data processing system for processing large amounts of data and its processing method

A data processing system for processing large amounts of data and a processing method thereof are disclosed. The system comprises an analysis pre-processing subsystem (1), an analysis and processing server (2), a storage server (3) and a disk holder (4), and the analysis pre-processing subsystem (1) includes a physical firewall and at least two virtual machines; the method is as follows. Processing: First, the pre-processing subsystem (1) processes the data before analysis, then outputs the pre-processing data to the analysis processing server (2), and analyzes the data in the analysis processing server (2), obtains the analysis data, and outputs the analysis data to the storage server (3) and the disk cabinet (4), finally in the storage server (3). Query and analyze data. The system of the invention carries out data analysis pretreatment, data analysis and data storage on different servers respectively, thus reducing the load on a physical machine, thereby improving the processing speed of each processing process.

全部详细技术资料下载

【技术实现步骤摘要】
一种用于处理大量数据的数据处理系统及其处理方法
本专利技术涉及数据处理领域，尤其涉及大量数据的，特别地，涉及一种用于处理大量数据的数据处理系统及其处理方法。
技术介绍
在实际应用中，为了从大量数据中得到相关的结论或判断，需要采用适当的统计分析方法对所述大量数据进行分析。但是由于大量数据的数据量较大、且为不信任数据，因此，在进行数据分析前需要对大量数据进行前处理。其中，所述不信任数据是指数据源为网络或无法认证可靠性的数据供应商，其可能含有病毒或木马程序，若直接将这些数据接入系统进行数据分析，会造成不可估量的损失。并且，在不信任数据中可能存在一些后期分析时不需要的垃圾数据，如果不对所述垃圾数据在数据分析前进行处理，很可能会增大数据分析的难度，并且导致数据分析不精确等。因此，在对大量数据进行分析前处理。在现有技术中，一般采用杀毒软件进行大量数据分析前处理，但是，采用杀毒软件只能进行杀毒，而不能对数据进行筛选处理，过滤掉不需要的垃圾数据，从而减轻后期分析的工作量。在现有技术有，在对大量数据进行分析前处理、数据分析以及后期数据查询和数据备份时，是在一台物理机上进行，这样，会对所述物理机造成较大负荷，进而使得分析前处理和分析处理的速度较低。因此，亟需一种用于处理大量数据的数据处理系统及其处理方法。
技术实现思路
为了克服上述问题，本专利技术人进行了锐意研究，设计出一种处理大量数据的数据处理系统及其处理方法，其中，将多台虚拟机与物理防火墙联用，进行数据分析前处理，然后在分析处理服务器和存储服务器上分别进行数据分析和数据存储，这样，使得数据分析前处理、数据分析以及后期数据存储...

【技术保护点】
1.一种用于处理大量数据的数据处理系统，其特征在于，所述系统包括分析前处理子系统(1)，用于对在数据分析前对数据进行处理，并将处理后的数据输出给分析处理服务器(2)；分析处理服务器(2)，用于进行数据分析，并分别向存储服务器(3)和盘柜(4)输出分析数据；存储服务器(3)，用于储存分析数据，以及数据查询；和盘柜(4)，用于对分析处理服务器(2)输出的分析数据进行备份；其中，所述分析前处理子系统(1)包括物理防火墙和至少两台虚拟机，其中，所述虚拟机中至少有两台虚拟机处于不同的局域网中。

【技术特征摘要】
1.一种用于处理大量数据的数据处理系统，其特征在于，所述系统包括分析前处理子系统(1)，用于对在数据分析前对数据进行处理，并将处理后的数据输出给分析处理服务器(2)；分析处理服务器(2)，用于进行数据分析，并分别向存储服务器(3)和盘柜(4)输出分析数据；存储服务器(3)，用于储存分析数据，以及数据查询；和盘柜(4)，用于对分析处理服务器(2)输出的分析数据进行备份；其中，所述分析前处理子系统(1)包括物理防火墙和至少两台虚拟机，其中，所述虚拟机中至少有两台虚拟机处于不同的局域网中。2.根据权利要求1所述的系统，其特征在于，所述分析前处理子系统包括第一虚拟机(11)、第二虚拟机(12)和物理防火墙(13)，其中，所述第一虚拟机(11)和所述第二虚拟机(12)处于不同的局域网中；所述大量数据通过物理防火墙(13)从第一虚拟机(11)传输给第二虚拟机(12)，再由第二虚拟机(12)通过物理防火墙(13)输出数据分析系统；所述第一虚拟机(11)用于对大量数据进行预处理，所述物理防火墙(13)用于预处理后的数据进行查杀，所述第二虚拟机用于对查杀后的数据进行数据核实及再处理。3.根据权利要求1或2所述的系统，其特征在于，所述第一虚拟机(11)包括数据接收模块(111)，用于接收需要处理的大量数据；数据预处理模块(112)，用于对第一虚拟机(11)接收的大量数据进行预处理；和数据输出与统计模块(113)，用于对第一虚拟机(11)预处理后的数据进行输出给物理防火墙(13)，并对输出数据中的文件个数进行统计。4.根据权利要求1至3之一所述的系统，其特征在于，所述数据预处理模块(112)包括空文件处理子模块(1121)，用于搜索大量数据中的空文件，并对搜索到的空文件移动至文件回收站；属性筛选子模块(1122)，用于通过文件属性筛选出进行后期数据分析时需要的文件，其中，所述属性包括文件创建日期、文件大小和文件格式；和稀疏文件处理子模块(1123)，用于对稀疏文件进行搜索，并将搜索到的稀疏文件移动至文件回收站，其中，所述稀疏文件指文件的实际占用空间小于系统显示的文件大小的文件；优选地，所述数据预处理模块(112)还包括可执行文件处理子模块(1124)，用于搜索大量数据中的可执行文件，并进行过滤处理；非二进制文件处理子模块(1125)，用于搜索大量数据中的非二进制文件，并进行过滤处理；有损文件处理子模块(1126)，用于搜索大量数据中的有损文件，并进行过滤处理；和暂不分析文件处理子模块(1127)，用于对暂时不进行后期分析的文件进行过滤处理，优选为移动至文件回收站。5.根据权利要求1至4之一所述的系统，其特征在于，所述第二虚拟机(12)包括数据接收与统计模块(121)，用于接收物理防火墙(13)传输的查杀后的数据，并对所述数据中的文件个数进行统计；数据复核模块(122)，用于将所述数据接收与统计模块(121)得到的文件统计结果与所述数据输出与统计模块(113)得到的文件统计结果进行比对，以确定在物理防火墙(13)的查杀过程中是否有文件丢失；和数据输出模块(123)，用于将经第二虚拟机(12)再处理后的数据输出给物理防火墙(13)；任选地，还包括数据再处理模块(124)，用于对查杀后的数据进行再处理。6.根据权利要求1至5之一所述的系统，其特征在于，所述数据再处理模块(124)包括空文件再处理子模块(1241)，用于搜索经查杀后的数据中的空文件，并对搜索到的空文件移动至文件回收站；属性再筛选子模块(1242)，用于通过文件属性在经查杀后的数据中筛选出进行后期数据分析时需要的文件，其中，所述属性包括文件创建日期、文件大小和文件格式；稀疏文件再处理子模块(1243)，用于对经查杀后的数据中的稀疏文件进行搜索，并将搜索到的稀疏文件移动至文件回收站；可执行文件再处理子模块(1244)，用于搜索经查杀后的数据中的可执行文件，并进行过滤处理；非二进制文件再处理子模块(1245)，用于搜索经查杀后的数据中的非二进制文件，并进行过滤处理；有损文件再处理子模块(1246)，用于搜索经查杀后的数据中的有损文件，并进行过滤处理；和暂不分析文件再处理子模块(1247)，用于对暂时不进行后期分析的文件进行过滤处理，优选为移动至文件回收站。7.一种大量数据处理方法，优选利用权利要求1至6所述数据处理系统进行，其特征在于，所述系统包括以下步骤：步骤1、利用分析前处理子系统(1)中对大量数据进行过滤和查杀，并将处理后的数据输出给分析处理服务器(2)；步骤2、分析处理服务器(2)接收到经分析前...

【专利技术属性】
技术研发人员：张守义，
申请(专利权)人：北京宸信征信有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人