一种数据处理方法及其系统技术方案

技术编号:8655966 阅读:139 留言:0更新日期:2013-05-01 23:38
本发明专利技术公开了一种数据处理方法,该方法包括:步骤一,将待处理的数据划分为多个数据包;步骤二,对部分或全部数据包设定各自的数据处理过程;步骤三,根据各个设定的数据处理过程,同时分别对各个数据包中的数据进行处理。本发明专利技术通过将各个数据包的数据处理作业分发至不同的管道中独立地执行,使得能够在各个管道中并行执行各个数据包的数据处理,节省了大量的时间;而且,各个数据包的数据处理过程可以根据用户的需要进行设定,对于不太重要的数据可以不进行,使得具有高扩展性。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,尤其涉及一种数据处理方法及其系统
技术介绍
近些年,随着互联网用户的剧增,互联网系统的访问量越来越大,产生了大量数据。当前,许多企业利用这些数据来分析用户的行为,从而预测市场前景。可见,数据已经成为现代企业的重要资源,是企业运用科学管理、决策分析的基础,目前,大多数企业花费大量的资金和时间来构建联机事物处理的业务系统和办公自动化系统,用来记录事物处理的各种相关数据。然而,对元数据进行处理是联机分析处理、数据挖掘的基础,因此,构建数据仓库的过程一个极其重要的环节。在现有技术中,ETL (Extraction-Transformation-Loading)数据转换方法被广泛应用与数据仓库的构建。如图1所示,ETL能将分布的、异构数据源中的元数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,构建了目标数据仓库。目前比较成熟的 ETL 商业工具有 IBM Datastage、DTS 和 OracleWarehouseBuilder等,这些商业工具设计的初衷是帮助不具备计算机专业知识的用户设计ETL作业,从而都以元数据驱动的方式实现,这反而增加了这些商业工具的复杂性,其设计的复杂性直接或间接地导致了数据处理的效率低下和系统可扩展性差。由于商业工具一般都价格昂贵,很多小型企业都选择开发自己的ETL工具,用以构建数据仓库,然而自行开发的ETL工具维护成本相当高,一些开源工具的出现,在一定程度上弥补了这些问题,如KETL、Kettle、CloverETL等。然而,这些开源工具也都具有前述的商业工具中存在的问题。综上所述,当前需要一种高效地、可扩展性强的方案来解决上述问题。
技术实现思路
本专利技术所要解决的技术问题之一是需要提供一种高效、可扩展性强的数据处理方法。为了解决上述技术问题,本专利技术提供了一种数据处理方法,该方法包括步骤一,将待处理的数据划分为多个数据包;步骤二,对部分或全部数据包设定各自的数据处理过程;步骤三,根据各个设定的数据处理过程,同时分别对各个数据包中的数据进行处理。根据本专利技术又一方面的数据处理方法,在所述步骤一中,根据设定模式将待处理的数据划分为多个数据包,其中,所述设定模式为按时间划分或按数据大小划分。根据本专利技术又一方面的数据处理方法,所述步骤二进一步包括将所述各个设定的数据处理过程分别定义为各个数据处理作业,其中,所述数据处理作业包括数据包的名称和与所述数据包的数据处理过程中所包含的各步骤相对应的方法属性。根据本专利技术又一方面的数据处理方法,在所述步骤三中,具体包括以下步骤分析并检查所述各个数据处理作业的语法;根据所述数据处理作业中数据包的名称,将语法正确的各个数据处理作业分发至与所述名称相关联的各个管道中;所述各个管道同时根据各个作业中的方法属性,调用相应的方法对该数据包中的数据进行处理,其中,所述各个管道为预先设定的针对各个数据包的数据处理过程的调用方法的函数,预先设定的管道的数量与将待处理的数据划分后的数据包的数量相同。根据本专利技术又一方面的数据处理方法,所述数据处理过程设定为按照以下顺序进行操作的前设定个步骤第一步进行设置步骤,该设置步骤执行在对数据处理之前的初始化处理,其中,所述初始化处理包括建立数据库表,并根据所述各个数据包的数量对所述数据库表进行分区的操作;第二步进行抽取步骤,该抽取步骤将元数据抽取出来;第三步进行转换步骤,该转换步骤将抽取出来的元数据进行合并、清洗、分类、分拣和列检索处理;第四步进行装载步骤,该装载步骤将执行完所述转换步骤后的数据加载至相应数据库中;第五步进行拆卸步骤,该拆卸步骤处理后续操作,所述后续操作包括删除文件和生成统计信息表。根据本专利技术又一方面的数据处理方法,采用插件的方式来设计各个数据处理作业。根据本专利技术又一方面的数据处理方法,所述管道在当前主机的一个线程中运行或在另一个主机的独立的进程中运行。根据本专利技术又一方面的数据处理方法,还包括利用PERL语言中的Log4perl模块,对所述管道调用相应的方法对该数据包中的数据进行处理的过程进行监控。根据本专利技术的另一方面,还提供了一种数据处理系统,包括划分模块,将待处理的数据划分为多个数据包;设定模块,对部分或全部数据包设定各自的数据处理过程;处理模块,根据各个设定的数据处理过程,同时分别对各个数据包中的数据进行处理。根据本专利技术又一方面的数据处理系统,所述设定模块进一步执行将所述各个设定的数据处理过程分别定义为各个数据处理作业,其中,所述数据处理作业包括数据包的名称和与所述数据包的数据处理过程中所包含的各步骤相对应的方法属性;在所述处理模块进一步包括任务分析器,其分析并检查所述各个数据处理作业的语法;任务分发器,根据所述数据处理作业中数据包的名称,将语法正确的各个数据处理作业分发至与所述名称相关联的各个管道中;所述各个管道,同时根据各个作业中的方法属性,调用相应的方法对该数据包中的数据进行处理,其中,所述各个管道为预先设定的针对各个数据包的数据处理过程的调用方法的函数,预先设定的管道的数量与将待处理的数据划分后的数据包的数量相同。与现有技术相比,本专利技术的一个或多个实施例可以具有如下优点本专利技术通过将各个数据包的数据处理作业分发至不同的管道中独立地执行,使得能够在各个管道中并行执行各个数据包的数据处理,节省了大量的时间;而且,各个数据包的数据处理过程可以根据用户的需要进行设定,对于不太重要的数据可以不进行,使得具有闻扩展性。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例共同用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是现有技术中ETL数据转换方法的流程示意图。图2是根据本专利技术第一实施例的数据处理方法的流程示意图;图3是根据本专利技术第一实施例的数据处理方法中的在管道中处理数据的流程示意图;图4是根据本专利技术第二实施例的数据处理系统的结构示意图;图5是根据本专利技术第二实施例的数据处理系统中的数据处理模块的结构示意图;图6是利用本专利技术的数据处理系统对数据进行处理的实验结果示意图;图7是利用本专利技术的数据处理系统和开源工具KETTLE进行数据处理的对比示意图。具体实施例方式以下将结合附图及实施例来详细说明本专利技术的实施方式,借此对本专利技术如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本专利技术中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本专利技术的保护范围之内。 另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。第一实施例图2是根据本专利技术第二实施例的数据处理方法的流程示意图,下面参考图2,详细说明本专利技术方法的各个步骤。步骤S210,将待处理的数据划分为多个数据包。具体地,将待处理的数据按照设定模式划分为多个数据包,其中设定模式包括按时间本文档来自技高网
...

【技术保护点】
一种数据处理方法,其特征在于,包括:步骤一,将待处理的数据划分为多个数据包;步骤二,对部分或全部数据包设定各自的数据处理过程;步骤三,根据各个设定的数据处理过程,同时分别对各个数据包中的数据进行处理。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括: 步骤一,将待处理的数据划分为多个数据包; 步骤二,对部分或全部数据包设定各自的数据处理过程; 步骤三,根据各个设定的数据处理过程,同时分别对各个数据包中的数据进行处理。2.根据权利要求1所述的数据处理方法,其特征在于,在所述步骤一中, 根据设定模式将待处理的数据划分为多个数据包,其中, 所述设定模式为按时间划分或按数据大小划分。3.根据权利要求1所述的数据处理方法,其特征在于,所述步骤二进一步包括: 将所述各个设定的数据处理过程分别定义为各个数据处理作业,其中, 所述数据处理作业包括数据包的名称和与所述数据包的数据处理过程中所包含的各步骤相对应的方法属性。4.根据权利要求3所述的数据处理方法,其特征在于,在所述步骤三中,具体包括以下步骤: 分析并检查所述各个数据处理作业的语法; 根据所述数据处理作业中数据包的名称,将语法正确的各个数据处理作业分发至与所述名称相关联的各个管道中; 所述各个管道同时根据各个作业中的方法属性,调用相应的方法对该数据包中的数据进行处理,其中, 所述各个管道为预先设定的针对各个数据包的数据处理过程的调用方法的函数,预先设定的管道的数量与将待处理的数据划分后的数据包的数量相同。5.根据权利要求4所述的数据处理方法,其特征在于,所述数据处理过程设定为按照以下顺序进行操作的前设定个步骤: 第一步进行设置步骤,该设置步骤执行在对数据处理之前的初始化处理,其中,所述初始化处理包括建立数据库表,并根据所述各个数据包的数量对所述数据库表进行分区的操作; 第二步进行抽取步骤,该抽取步骤将元数据抽取出来; 第三步进行转换步骤,该转换步骤将抽取出来的元数据进行合并、清洗、分类、分拣和...

【专利技术属性】
技术研发人员:田媛媛
申请(专利权)人:中标软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1