The invention discloses a batch processing method, apparatus and computer system for large data, the method comprises: according to predetermined rules, the data partition, get multiple partitions data; the plurality of data partitions assigned to each node of the operation actuator, the actuator for each operation the partition data corresponding to independent execution nodes, making multiple partitions of data can be processed at the same time, also can avoid the partition data corresponding to a node is abnormal in the processing process, processing data partition to other nodes corresponding to the interference caused by the phenomenon, effectively improve the efficiency of a batch of big data.
【技术实现步骤摘要】
一种大数据的批处理方法、装置及计算机系统
本申请涉及数据处理
,尤其涉及一种大数据的批处理方法、装置电子设备、计算机可读存储介质及计算机系统。
技术介绍
随着数据量的大规模增长,不同的服务对数据的处理要求变得复杂多样。批处理(Batch)是目前大数据分析中对于数据处理的一种基本方法。所谓批处理也称为批处理脚本,是对某对象进行批量的处理,其目的是为了提高系统吞吐量和资源的利用率。目前的大数据批处理,是通过将大数据分批次在同一服务器上依次进行处理,当某一批次的数据处理完成后,另一批次的数据才能被处理,使得部分数据长时间处于等待处理的状态,影响了大数据的批处理进度,从而使大数据的批处理效率较低。因此,如何提高大数据的批处理效率是本申请需要解决的技术问题。申请内容本申请实施例提供一种大数据的批处理方法,用于解决现有技术中大数据的批处理效率较低的问题。本申请实施例提供一种大数据的批处理装置,用于解决现有技术中大数据的批处理效率较低的问题。本申请实施例提供一种电子设备,用于解决现有技术中大数据的批处理效率较低的问题。本申请实施例提供一种计算机可读存储介质,用于解决现有技术中大数据的批处理效率较低的问题。本申请实施例提供一种计算机系统,用于解决现有技术中大数据的批处理效率较低的问题。本申请实施例采用下述技术方案:第一方面,提出了一种大数据的批处理方法,所述方法包括:按照预定规则,将大数据进行数据分区,得到多个分区数据;将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。第二方面,提出了一种大数据的批处理装置,所述装 ...
【技术保护点】
一种大数据的批处理方法,其特征在于,所述方法包括:按照预定规则,将大数据进行数据分区,得到多个分区数据;将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。
【技术特征摘要】
1.一种大数据的批处理方法,其特征在于,所述方法包括:按照预定规则,将大数据进行数据分区,得到多个分区数据;将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。2.根据权利要求1所述的方法,其特征在于,将所述多个分区数据分配给各个节点上的作业执行器执行,具体包括:将所述多个分区数据发送至消息队列;以先进先出的原则,将消息队列中的分区数据,分配给相应的作业执行器执行。3.根据权利要求1或2所述的方法,其特征在于,将所述多个分区数据分配给各个节点上的作业执行器执行之后,所述方法还包括:监控各个所述作业执行器的执行状态,针对所述执行状态的作业执行器对应的分区数据产生特定指令,所述特定指令由所述作业执行器的执行状态确定的,用于控制所述执行状态的作业执行器执行特定操作。4.根据权利要求3所述的方法,其特征在于,所述作业执行器的执行状态包括执行数据中断、执行数据失败或执行数据阻塞;监控各个所述作业执行器的执行状态,针对所述执行状态的作业执行器对应的分区数据产生特定指令,具体包括:若监测所述作业执行器执行数据阻塞,则针对所述执行数据阻塞的作业执行器对应的分区数据产生跳过指令,所述跳过指令用于控制所述执行数据阻塞的作业执行器执行跳过操作;若监测所述作业执行器执行数据中断,则针对所述执行数据中断的作业执行器对应的分区数据产生重试指令,所述重试指令用于控制所述执行数据中断的作业执行器执行重试操作;若监测所述作业执行器执行数据失败,则针对所述执行数据失败的作业执行器对应的分区数据产生重启指令,所述重启指令用于控制所述执行数据失败的作业执行器执行重启操作。5.根据权利要求1或2所述的方法,其特征在于,将所述多个分区数据分配给各个节点上的作业执行器执行之后,还包括:获取用户为所述各个节点对应的分区数据设置的多个计时阶段,以及每个计时阶段的计时时间;在启动计时后,依次对所述每个计时阶段的计时时间进行倒计时;在每个计时阶段的计时时间倒计时完成后,调度与各个所述分区数据对应的各个所述作业执行器执行作业。6.根据权利要求1或2所述的方法,其特征在于,所述预定规则为以文件的名称作为数据分区的规则,或以数据的标识作为数据分区的规则,或以哈希值作为数据分区的规则;所述文件的名称为数据所属的文件名称。7.一种大数据的批处理装置,其特征在于,所述装置包括:分区模块,用于按照预定规则,将大数据进行数据分区,得到多个分区数据;分配模块,用于将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。8.根据权利要求7所述的装置,其特征在于...
【专利技术属性】
技术研发人员:杨光润,宋伟强,张恒,肖斌,何继远,
申请(专利权)人:上海艾融软件股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。