一种预处理单元、由其构成的数据处理系统以及处理方法技术方案

技术编号:9862543 阅读:191 留言:0更新日期:2014-04-02 20:17
本发明专利技术公开了一种数据预处理单元、由其构成的数据处理系统以及处理方法。一种数据预处理单元,该单元包括任务调度模块以及由任务调度模块控制的至少一个任务处理模块,其中,任务调度模块依据网络接收单元捕获的网络数据包,建立任务列表,向预处理模块分配任务并监控其运行状态;任务处理模块包括:管理器;应用协议解析引擎;以及业务数据过滤引擎。所述系统及方法将网络数据包形成元数据存入规则库并实现对其的关联分析。本发明专利技术的有益效果为:通过预处理单元对数据的处理,极大的降低后续单元的工作压力,更有效的应对数据访问高峰。处理系统通过对业务数据的关联分析,实现其深度使用。

【技术实现步骤摘要】
一种预处理单元、由其构成的数据处理系统以及处理方法
本专利技术涉及信息
,具体涉及一种数据预处理单元、由其构成的数据处理系统以及处理方法。
技术介绍
随着信息技术的快速发展,网络服务器经常需要处理大量的业务数据,例如促销时的网购、综合查询系统(或警务综合平台)、情报信息综合应用平台、人口信息系统、出入境人员/证件信息库、机动车/驾驶人信息库、公安机关户籍管理系统、金融行业核心业务系统、证劵交易系统、企业ERP应用等以及一些其他行业核心业务系统,基于现有的网络访问行为尚未建立日志或日志信息不全的现状,在信息化与业务工作不断深入融合的背景下,利用信息系统的漏洞或不完善的方面违规操作、冒用他人身份操作、授意他人操作的情况难以避免。更有甚者,在信息系统中恶意修改数据、使用黑客软件攻击服务器的现象也偶有发生。因为没有专门的操作日志记录,导致取证困难,这也充分暴露了内部监督制约的必要性。严格审计管理所有的业务信息系统,并制定责任追查和追踪制度,可以有效防止和避免内部人员利用信息系统监守自盗等非授权的行为操作,确保信息系统的安全。另外,现有的这些系统中,其业务审计功能普遍较弱,为了对业务行为进行审计,通常的解决方式是对应用系统进行改造,增加业务审计模块,但改造不仅需要经费、影响系统的正常应用,而且对系统的资源(CPU、内存)也会产生较大的压力。
技术实现思路
有鉴于此,本专利技术提供的一种预处理单元、由其构成的数据处理系统以及处理方法,通过预处理工序,减轻数据访问高峰阶段服务器的处理压力。为达到上述目的,本专利技术采用的技术方案是:一种数据预处理单元,该单元包括任务调度模块以及由任务调度模块控制的至少一个任务处理模块,其中,任务调度模块依据网络接收单元捕获的网络数据包,建立任务列表,向预处理模块分配任务并监控其运行状态;任务处理模块包括:管理器,用于同任务调度模块进行数据交换,并监控任务处理模块的系统资源和任务执行进度;应用协议解析引擎,根据任务指令接收网络数据包并进行解析、整合,形成网络数据包;以及业务数据过滤引擎,接收应用协议解析引擎传输过来的网络数据包,并过滤掉非网络数据包。通过预处理单元处理的网络数据包,都是与业务相关的明文包,极大的减轻处理单元的处理压力。进一步的,任务调度模块将任务分解成子任务以分配给多个任务处理模块,子任务的处理分为串行处理和并行处理。针对较复杂的任务,多个模块同时处理速度更快。进一步的,任务和子任务的运行状态包括准备、就序、处理、完成以及收回。更加便于调度模块对任务的调派。一种数据处理系统,包括网络接收单元、处理单元、维护单元、存储单元以及前述的预处理单元,其中,网络接收单元,用以接收网络数据包;处理单元,接收网络接收单元传输过来的网络数据包,根据业务信息提取规则对网络数据包进行关联分析以生成处理结果;维护单元,对业务信息提取规则和业务信息进行维护和更新;存储单元,存储业务信息提取规则以及业务信息。装有预处理单元的系统处理速度更快,处理能力更强大,能应对更大量的数据访问。进一步的,处理单元接收网络接收单元传输过来的网络数据包,并处理以形成包括请求人、请求时间、目标系统以及业务数据的元数据并存入业务信息。使规则库具有对访问数据的关联分析能力。进一步的,网络接收单元包括网络身份认证系统和网络数据探针系统,网络身份认证系统用于监控用户状态以确认是否允许用户数据通过,网络数据探针系统根据预设抓包规则捕获网络数据包。进行身份认证以实现请求人确认,通过两个系统实现资源的高效利用。优选的,存储单元以统一的存储接口集成数据库管理系统和分布式存储架构。可以部署在低廉的硬件上,也可以提供高传输率访问数据,适合未来超大数据集的审计和应用分析。也便于新的存储单元的接入。一种数据处理方法,包括以下步骤:801:构建包括业务数据包识别特征和业务信息提取规则的规则库;802:接收业务数据包,提取由请求人、请求时间、目标系统以及业务数据组成的元数据;803:根据元数据特征,从规则库中读取提取规则;804:根据提取规则提取业务信息。基于关联分析知识,可以对业务信息进行不同的挖掘,从而可以根据需求实现对业务信息的综合分析和处理。进一步的,规则库中的业务信息提取规则的状态分为测试、活动、冻结、失效四个阶段。规则库还包括规则定义、规则有效性验证以及规则管理。业务信息和提取规则都是动态的,实时更新的。本专利技术的有益效果为:通过预处理单元对数据的处理,极大的降低后续单元的工作压力,更有效的应对数据访问高峰。处理系统通过对业务数据的关联分析,实现其深度使用。附图说明图1为本专利技术所述数据处理系统的结构框图;图2为本专利技术所述数据处理方法的流程图;图3为本专利技术所述数据处理系统的具体实施图。具体实施方式下面结合附图对本专利技术的技术方案进行描述,很显然的,附图所描述的仅仅是本专利技术的一部分而不是全部实施例。如图1所示,本专利技术提供的一种数据预处理单元,包括任务调度模块以及由任务调度模块控制的至少一个任务处理模块。在众多场合,网络数据访问在业务高峰期的数据量非常巨大,对其进行业务审计所需的资源也非常巨大,本专利技术的核心功能是对捕获的网络数据包进行预处理,减轻后续审计处理的压力,主要处理手段包括应用协议分析引擎、协议算法模块(http、DES、MD5等)及业务数据过滤引擎。本专利技术提供的预处理单元优选分布式设计,由多个预处理模块和调度模块构成。在实际布置时,可依据业务预处理需求及预处理机的运算能力,确定预处理模块的数量。每个预处理模块除内置数据处理模块外,还包括任务管理模块,任务管理模块接受任务调度模块的指令,处理指定网络数据探针系统接受的网络数据包;预处理模块的任务管理模块还定时监控本机的系统资源和任务执行情况,并上报到任务调度模块,一旦预处理模块出现故障,任务调度模块可以及时协调其它预处理机,接替出现故障的预处理机。任务调度模块是预处理的核心,它可以协调多任务预处理模块的并行工作。这里需要说明的是,处理模块和任务调度模块是软件模块化概念,在一台服务器上,可以安装处理机软件或任务调度引擎机软件,也可以把处理机软件或任务调度引擎机软件同时安装到一台服务器上。每个预处理模块内部都包括应用协议解析引擎和业务数据过滤引擎两部分。应用协议解析引擎从网络数据探针系统接收http及https协议数据包并进行解析,整合成业务数据包;业务数据过滤引擎对解析后的业务数据包进行二次清洗。针对http协议数据包,应用协议解析引擎分别提取请求报文的请求行、消息报头、请求正文和应答报文的状态行、消息报头、响应正文,把这些信息作为一个信息单元,提交业务数据过滤引擎进行处理。对于https协议的数据包,在提取http信息之前,还要进行报文解密工作。首先,从服务器证书库中,提取报文发起方的数字证书;然后以数据证书对https本次通讯的密钥协商报文进行解密了,获取本次通讯的密钥;分析https本次通讯的协商报文,确定本次通讯的加密算法;根据采用的算法调用相应的DES、RC2、RC5等模块,对报文进行解析,获得通讯的明文;最后,对明文进行MD5或SHA的签名验证,保证解析的正确性。为了实现https等加密数据的还原,本专利技术提供的预处理单元内置数字证书库,导入数据证书,实现解密工作。当应本文档来自技高网...
一种预处理单元、由其构成的数据处理系统以及处理方法

【技术保护点】
一种数据预处理单元,其特征在于,该单元包括任务调度模块以及由任务调度模块控制的至少一个任务处理模块,其中,任务调度模块依据网络接收单元捕获的网络数据包,建立任务列表,向预处理模块分配任务并监控其运行状态;任务处理模块包括:管理器,用于同任务调度模块进行数据交换,并监控任务处理模块的系统资源和任务执行进度;应用协议解析引擎,根据任务指令接收网络数据包并进行解析、整合,形成网络数据包;以及业务数据过滤引擎,接收应用协议解析引擎传输过来的网络数据包,并过滤掉非网络数据包。

【技术特征摘要】
1.一种数据处理系统,该系统包括网络接收单元、处理单元、维护单元、存储单元以及预处理单元,其特征在于,预处理单元包括任务调度模块以及由任务调度模块控制的至少一个任务处理模块,其中,任务调度模块依据网络接收单元捕获的网络数据包,建立任务列表,向任务处理模块分配任务并监控其运行状态,任务调度模块将任务分解成子任务以分配给多个任务处理模块,子任务的处理分为串行处理和并行处理,任务和子任务的运行状态包括准备、就序、处理、完成以及收回;任务处理模块包括管理器、应用协议解析引擎和业务数据过滤引擎:所述管理器用于同任务调度模块进行数据交换,并监控任务处理模块的系统资源和任务执行进度,所述应用协议解析引擎,根据任务指令接收网络数据包并进行解析、整合,形成网络数据包,所述业务数据过滤引擎,接收应用协议解析引擎传输过来的网络数据包,并过滤掉与业务无关的网络数据包;网络接收单元,用以接收网络数据包;处理单元,接收预处理单元传输过来的网络数据包,根据规则库中的提取规则提取业务信息,然后按照关联规则库对提取信息进行关联以生成处理结果;维护单元,对业务信息提取规则和业务信息进行维护和更新;存储单元,存储业务信息提取规则以及业务信息。2.根据权利...

【专利技术属性】
技术研发人员:邵永刚范仲伟李颖
申请(专利权)人:沈阳觉醒软件有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1