一种大数据的批处理方法、装置及计算机系统制造方法及图纸

技术编号:16427637 阅读:33 留言:0更新日期:2017-10-21 22:08
本申请公开了一种大数据的批处理方法、装置及计算机系统,该方法包括:按照预定规则,将大数据进行数据分区,得到多个分区数据;将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据,使得多个分区数据可以同时被处理,同时可以避免某一节点对应的分区数据在处理过程中出现异常,对其他节点对应的分区数据的处理造成干扰的现象发生,有效的提高了大数据的批处理效率。

A batch processing method, device and computer system for large data

The invention discloses a batch processing method, apparatus and computer system for large data, the method comprises: according to predetermined rules, the data partition, get multiple partitions data; the plurality of data partitions assigned to each node of the operation actuator, the actuator for each operation the partition data corresponding to independent execution nodes, making multiple partitions of data can be processed at the same time, also can avoid the partition data corresponding to a node is abnormal in the processing process, processing data partition to other nodes corresponding to the interference caused by the phenomenon, effectively improve the efficiency of a batch of big data.

【技术实现步骤摘要】
一种大数据的批处理方法、装置及计算机系统
本申请涉及数据处理
,尤其涉及一种大数据的批处理方法、装置电子设备、计算机可读存储介质及计算机系统。
技术介绍
随着数据量的大规模增长,不同的服务对数据的处理要求变得复杂多样。批处理(Batch)是目前大数据分析中对于数据处理的一种基本方法。所谓批处理也称为批处理脚本,是对某对象进行批量的处理,其目的是为了提高系统吞吐量和资源的利用率。目前的大数据批处理,是通过将大数据分批次在同一服务器上依次进行处理,当某一批次的数据处理完成后,另一批次的数据才能被处理,使得部分数据长时间处于等待处理的状态,影响了大数据的批处理进度,从而使大数据的批处理效率较低。因此,如何提高大数据的批处理效率是本申请需要解决的技术问题。申请内容本申请实施例提供一种大数据的批处理方法,用于解决现有技术中大数据的批处理效率较低的问题。本申请实施例提供一种大数据的批处理装置,用于解决现有技术中大数据的批处理效率较低的问题。本申请实施例提供一种电子设备,用于解决现有技术中大数据的批处理效率较低的问题。本申请实施例提供一种计算机可读存储介质,用于解决现有技术中大数据的批处理效率较低的问题。本申请实施例提供一种计算机系统,用于解决现有技术中大数据的批处理效率较低的问题。本申请实施例采用下述技术方案:第一方面,提出了一种大数据的批处理方法,所述方法包括:按照预定规则,将大数据进行数据分区,得到多个分区数据;将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。第二方面,提出了一种大数据的批处理装置,所述装置包括:分区模块,用于按照预定规则,将大数据进行数据分区,得到多个分区数据;分配模块,用于将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。第三方面,提出了一种电子设备,所述电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:按照预定规则,将大数据进行数据分区,得到多个分区数据;将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:按照预定规则,将大数据进行数据分区,得到多个分区数据;将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。第五方面,提出了一种计算机系统,所述系统包括:多个作业执行器;上述所述的大数据的批处理装置,用于将大数据进行数据分区得到多个分区数据,并将多个分区数据分配给各个节点上的作业执行器执行。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:由于各个作业执行器为执行器服务器,因此,本申请通过将按照预定规则对大数据进行数据分区,得到多个分区数据,并将多个分区数据分配给各个节点上的作业执行器执行,可以使得多个分区数据可以同时在各个节点上的执行器服务器上执行,使得多个分区数据可以同时被处理,同时可以避免某一节点对应的作业执行器在处理分区数据的过程中出现异常,对其他节点对应作业执行器在处理分区数据造成干扰的现象发生,有效的提高了大数据的批处理效率。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的一种大数据的批处理方法的一示意性流程图;图2为本申请实施例提供的一种大数据的批处理方法在实际应用场景下的一示意性流程图;图3为本申请实施例提供的一种大数据的批处理装置的结构示意图;图4为本申请实施例提供的一种电子设备的结构示意图;图5为本申请实施例提供的一种计算机系统的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例提供的一种大数据的批处理方法,该方法的执行主体可以是数据处理框架或数据处理的服务器。为了便于清楚的描述本申请实施例提供的该方法,下文以方法的执行主体为数据处理的服务器为例,详细介绍本申请实施例提供的方法。本领域技术人员可以理解,该方法的执行主体为数据处理的服务器只是一种示例性说明,并不是对本方法的执行主体的具体限定。图1示出了本申请实施例提供的一种大数据的批处理方法的一示意性流程图,如图1所示,该方法包括:步骤101、按照预定规则,将大数据进行数据分区,得到多个分区数据。该预定规则可以为以文件的名称作为数据分区的规则,或以数据的标识作为数据分区的规则,或以哈希值作为数据分区的规则;所述文件的名称为数据所属的文件名称。以预定规则为以文件的名称作为数据分区的规则为例,步骤101具体实现如下事例:例1,当同时处理多个文件(如三个文件)时,根据不同的文件名(text1、text2、text3)将分布式数据库中的大数据进行数据分区,以分别为text1、text2和text3这三个文件生成对应的分区数据。上述事例是针对多条数据文件而言,若针对某一业务数据表,预定规则为以数据的标识作为数据分区的规则,或以哈希值作为数据分区的规则。以预定规则为以数据的标识作为数据分区的规则为例,步骤101具体实现如下事例:例2,当处理某一业务数据表时,根据数据库表的主关键字(主键,primarykey),将分布式数据库中的大数据进行数据分区成(0-10,11-20,21-30)三个区域,这三个区域可以分别为读取数据区、处理数据区和写入数据区。同时,获取分区后每个数据分区对应的分区数据。步骤102、将多个分区数据分配给各个节点上的作业执行器执行。所述各个节点上的作业执行器是指不同的作业执行器服务器,用于分别执行分配给各个节点的分区数据。沿用上述事例1,针对多条数据文件而言,执行步骤101为每个文件(text1、text2和text3)生成对应的分区数据,执行步骤102将多个分区数据分配给各个节点上的作业执行器执行,以实现将多条数据文件对应的分区数据在不同的作业执行器执行,较现有技术,无需大数据分批次在同一服务器上依次进行处理,实现了多个分区数据由各个节点上的作业执行器同时执行,使大数据的批处理可以同时进行,有效的提高了大数据的批处理效率。沿用上述事例2,针对某一业务数据表而言,执行步骤101获取分区后每个数据分区(读取数据区、处理数据区和写入数据区)对应的分区数据,执行步骤102将多个分区数据分配给各个节点上的作业执行器执行,以实现在某一业务数据表中将读取数据分配到相应的读取数据的执行器执行,将写入数据分配到相应的写入数据的执行器执行,从而将对读、写的处理逻辑进行分离,使在特定的构化查询语言(StructuredQueryLanguage,SQL)操作中减少本文档来自技高网...
一种大数据的批处理方法、装置及计算机系统

【技术保护点】
一种大数据的批处理方法,其特征在于,所述方法包括:按照预定规则,将大数据进行数据分区,得到多个分区数据;将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。

【技术特征摘要】
1.一种大数据的批处理方法,其特征在于,所述方法包括:按照预定规则,将大数据进行数据分区,得到多个分区数据;将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。2.根据权利要求1所述的方法,其特征在于,将所述多个分区数据分配给各个节点上的作业执行器执行,具体包括:将所述多个分区数据发送至消息队列;以先进先出的原则,将消息队列中的分区数据,分配给相应的作业执行器执行。3.根据权利要求1或2所述的方法,其特征在于,将所述多个分区数据分配给各个节点上的作业执行器执行之后,所述方法还包括:监控各个所述作业执行器的执行状态,针对所述执行状态的作业执行器对应的分区数据产生特定指令,所述特定指令由所述作业执行器的执行状态确定的,用于控制所述执行状态的作业执行器执行特定操作。4.根据权利要求3所述的方法,其特征在于,所述作业执行器的执行状态包括执行数据中断、执行数据失败或执行数据阻塞;监控各个所述作业执行器的执行状态,针对所述执行状态的作业执行器对应的分区数据产生特定指令,具体包括:若监测所述作业执行器执行数据阻塞,则针对所述执行数据阻塞的作业执行器对应的分区数据产生跳过指令,所述跳过指令用于控制所述执行数据阻塞的作业执行器执行跳过操作;若监测所述作业执行器执行数据中断,则针对所述执行数据中断的作业执行器对应的分区数据产生重试指令,所述重试指令用于控制所述执行数据中断的作业执行器执行重试操作;若监测所述作业执行器执行数据失败,则针对所述执行数据失败的作业执行器对应的分区数据产生重启指令,所述重启指令用于控制所述执行数据失败的作业执行器执行重启操作。5.根据权利要求1或2所述的方法,其特征在于,将所述多个分区数据分配给各个节点上的作业执行器执行之后,还包括:获取用户为所述各个节点对应的分区数据设置的多个计时阶段,以及每个计时阶段的计时时间;在启动计时后,依次对所述每个计时阶段的计时时间进行倒计时;在每个计时阶段的计时时间倒计时完成后,调度与各个所述分区数据对应的各个所述作业执行器执行作业。6.根据权利要求1或2所述的方法,其特征在于,所述预定规则为以文件的名称作为数据分区的规则,或以数据的标识作为数据分区的规则,或以哈希值作为数据分区的规则;所述文件的名称为数据所属的文件名称。7.一种大数据的批处理装置,其特征在于,所述装置包括:分区模块,用于按照预定规则,将大数据进行数据分区,得到多个分区数据;分配模块,用于将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。8.根据权利要求7所述的装置,其特征在于...

【专利技术属性】
技术研发人员:杨光润宋伟强张恒肖斌何继远
申请(专利权)人:上海艾融软件股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1