作业控制方法及服务器技术

技术编号:15541403 阅读:95 留言:0更新日期:2017-06-05 10:49
本发明专利技术实施例公开了一种作业控制方法及服务器,方法包括:任务调度服务器接收第一批处理服务器在执行批处理作业时每处理完n行数据后发送的中间数据,所述中间数据包括:所述n行数据的脏数据以及所述脏数据的元数据信息;任务调度服务器存储所述中间数据;任务调度服务器判断所述第一批处理服务器执行的批处理作业故障时,选择执行所述批处理作业的第二批处理服务器;任务调度服务器将所述批处理作业故障前最后一次接收到的中间数据发送至所述第二批处理服务器,作为所述第二批处理服务器重启所述批处理作业的参考数据。本发明专利技术实施例能够缩短因为服务器故障带来的批处理作业重新运行的时间开销,提高批处理作业的执行效率。

Job control method and server

The embodiment of the invention discloses an operation control method and server, method includes: task scheduling server receives the first batch processing server each intermediate data n data after performing batch operations, the intermediate data including the dirty data n data and the metadata information of dirty data the scheduling server; storing the intermediate data; task scheduling server to determine the first batch batch job execution server failure, choose to implement the second batch batch job scheduling server server; the number of intermediate data processing operations before the failure of the last received to the the second batch processing server, as the second batch server restart the batch job reference data. Embodiments of the invention can shorten the time overhead of batch processing jobs due to server failures, and improve the execution efficiency of batch processing jobs.

【技术实现步骤摘要】
作业控制方法及服务器
本专利技术涉及通信领域,尤其涉及一种作业控制方法及服务器。
技术介绍
大型机(Mainframecomputer)是由IBM公司最早专利技术的大型计算机,由于其强大的处理能力和优越的可靠性,主要用于证券、基金、股票、能源等行业的核心应用。由于大型机的购买和维护费用高昂、新业务应用开发周期长、专业技术人员数量稀少、以及小型机和X86服务器的性能和可靠性逐步提升等相关原因,目前,已有大量的大型机客户正在评估或实施将业务从大型机迁移到小型机或X86服务器上。大型机的业务主要分为联机交易(online)和批处理(batch)两大类。批处理作业一般用于大数据量的集中处理,一个典型的例子是,银行为某大型企业的所有员工代发工资。从这个例子可以总结出批处理作业的一些特点:数据量和计算量大(一家大型企业的员工以万计)、业务处理流程相同(核算和转账工资)、周期性(代发工资业务在每个月的固定日期触发)。批处理作业一般有一个时间窗口(TimeWindow),在某个时间段(比如00:00到4:00之间)内,所有的批处理作业必须执行完成。在时间窗口内,批处理作业未执行完成的,可能会影响后续业务的正常开展。由于X86服务器发展较晚等原因,其可靠性没有大型机那么优秀,比如大型机的可用性通常能达到99.999%,这意味着在一年的时间里,大型机意外停机的时间不超过5.3分钟;如果X86服务器的可用性为99.99%,这意味着它一年内意外停机的时间为53分钟。因此,由X86服务器替换大型机所形成的X86系统中,由于X86服务器意外宕机给批处理作业时间窗口带来的影响更大。当把业务从大型机迁移到X86系统中,尤其需要关注可靠性带来的影响。当批处理作业从大型机迁移到X86系统时,如果批处理作业故障,需要从批处理作业的第一个步骤开始执行,成功的步骤也需要重新执行。对不同的批处理作业来说,有的作业执行时间短,有的作业执行时间长;对同一个批处理作业来说,有的步骤执行时间短,有的步骤执行时间长。很显然,执行时间短的作业或步骤重新执行带来的时间开销低,执行时间长的作业或步骤重新执行带来的时间开销高。当系统因为软硬件故障宕机时,批处理作业在执行时间长的作业、步骤的概率明显更大,因此当批处理作业需要重新运行时,带来的时间开销往往是很大的,这也影响着批处理作业的执行效率。
技术实现思路
本专利技术实施例中提供了一种作业控制方法及服务器,能够缩短因为服务器故障带来的批处理作业重新运行的时间开销,提高批处理作业的执行效率。第一方面,本专利技术实施例提供一种作业控制方法,包括:任务调度服务器接收第一批处理服务器在执行批处理作业时每处理完n行数据后发送的中间数据,所述中间数据携带:所述n行数据的脏数据以及所述脏数据的元数据信息;n为自然数;所述任务调度服务器存储所述中间数据;所述任务调度服务器判断所述批处理作业执行失败时,选择重新执行所述批处理作业的第二批处理服务器;所述任务调度服务器将所述批处理作业执行失败前所述任务调度服务器最后一次接收到的中间数据发送至所述第二批处理服务器,作为所述第二批处理服务器重启所述批处理作业的参考数据。结合第一方面,在第一方面第一种可能的实现方式中,所述任务调度服务器存储所述中间数据,包括:所述任务调度服务器将所述中间数据存储于所述任务调度服务器的共享缓存中。结合第一方面,和/或第一方面第一种可能的实现方式,在第一方面第二种可能的实现方式中,还包括:任务调度服务器将所述中间数据存储至共享存储中。结合第一方面第二种可能的实现方式,在第一方面第三种可能的实现方式中,任务调度服务器将所述中间数据存储至共享存储中,包括:任务调度服务器确定当前时间距离上一存储时间达到预设时间阈值时,将所述上一存储时间之后接收到的中间数据存储至共享存储中,所述上一存储时间是指距离当前时间最近的、将中间数据存储至共享存储的时间;和/或,任务调度服务器确定上一次将中间数据存储至共享缓存之后接收到的中间数据的数据量达到数据量阈值时,将上一次将中间数据存储至共享缓存之后接收到的中间数据存储至共享存储中;和/或,任务调度服务器确定上一次将中间数据存储至共享缓存之后接收到中间数据的次数达到次数阈值时,将上一次将中间数据存储至共享缓存之后接收到的中间数据存储至共享存储中。第二方面,本专利技术实施例提供一种作业控制方法,包括:第一批处理服务器在执行批处理作业时,每处理完n行数据后向任务调度服务器发送中间数据,所述中间数据包括:所述n行数据的脏数据以及所述脏数据的元数据信息,作为所述批处理作业执行失败时第二批处理服务器重启所述批处理作业的参考数据,n为自然数。第三方面,本专利技术实施例提供一种作业控制方法,包括:第二批处理服务器接收到任务调度服务器发送的、用于指示第二批处理服务器重新执行失败的批处理作业的作业重启消息时,接收任务调度服务器发送的中间数据,所述中间数据包括:n行数据的脏数据以及所述脏数据的元数据信息;所述中间数据是所述任务调度服务器在所述批处理作业执行失败前最后一次接收到的中间数据;n为自然数;所述第二批处理服务器从所述中间数据记录的步骤重启所述批处理作业。结合第三方面,在第三方面第一种可能的实现方式中,还包括:第二批处理服务器接收到任务调度服务器发送的作业重启消息,且无法从所述任务调度服务器接收到所述批处理作业的中间数据时,从共享存储获取所述批处理作业的第二数据;所述第二数据包括:所述共享存储最近一次接收到的所述批处理作业的脏数据和元数据信息;所述第二批处理服务器从所述第二数据记录的步骤重启所述批处理作业。第四方面,本专利技术实施例提供一种任务调度服务器,包括:接收单元,用于接收第一批处理服务器在执行批处理作业时每处理完n行数据后发送的中间数据,所述中间数据包括:所述n行数据的脏数据以及所述脏数据的元数据信息;n为自然数;存储单元,用于存储接收单元接收到的所述中间数据;选择单元,用于判断所述批处理作业执行失败时,选择重新执行所述批处理作业的第二批处理服务器;发送单元,用于将所述批处理作业执行失败前所述任务调度服务器最后一次接收到的中间数据发送至所述选择单元选择的所述第二批处理服务器,作为所述第二批处理服务器重启所述批处理作业的参考数据。结合第四方面,在第四方面第一种可能的实现方式中,所述存储单元具体用于:将所述中间数据存储于所述任务调度服务器的共享缓存中。结合第四方面,和/或第四方面第一种可能的实现方式,在第四方面第二种可能的实现方式中,所述存储单元还用于:将所述中间数据存储至共享存储中。结合第四方面第二种可能的实现方式,在第四方面第三种可能的实现方式中,所述存储单元具体用于:确定当前时间距离上一存储时间达到预设时间阈值时,将所述上一存储时间之后接收到的中间数据存储至共享存储中,所述上一存储时间是指距离当前时间最近的、将中间数据存储至共享存储的时间;和/或,确定上一次将中间数据存储至共享缓存之后接收到的中间数据的数据量达到数据量阈值时,将上一次将中间数据存储至共享缓存之后接收到的中间数据存储至共享存储中;和/或,确定上一次将中间数据存储至共享缓存之后接收到中间数据的次数达到次数阈值时,将上一次将中间数据存储至共享缓存之后接收到的中间数据存储至共享存储本文档来自技高网
...
作业控制方法及服务器

【技术保护点】
一种作业控制方法,其特征在于,包括:任务调度服务器接收第一批处理服务器在执行批处理作业时每处理完n行数据后发送的中间数据,所述中间数据携带:所述n行数据的脏数据以及所述脏数据的元数据信息;n为自然数;所述任务调度服务器存储所述中间数据;所述任务调度服务器判断所述批处理作业执行失败时,选择重新执行所述批处理作业的第二批处理服务器;所述任务调度服务器将所述批处理作业执行失败前所述任务调度服务器最后一次接收到的中间数据发送至所述第二批处理服务器,作为所述第二批处理服务器重启所述批处理作业的参考数据。

【技术特征摘要】
1.一种作业控制方法,其特征在于,包括:任务调度服务器接收第一批处理服务器在执行批处理作业时每处理完n行数据后发送的中间数据,所述中间数据携带:所述n行数据的脏数据以及所述脏数据的元数据信息;n为自然数;所述任务调度服务器存储所述中间数据;所述任务调度服务器判断所述批处理作业执行失败时,选择重新执行所述批处理作业的第二批处理服务器;所述任务调度服务器将所述批处理作业执行失败前所述任务调度服务器最后一次接收到的中间数据发送至所述第二批处理服务器,作为所述第二批处理服务器重启所述批处理作业的参考数据。2.根据权利要求1所述的方法,其特征在于,所述任务调度服务器存储所述中间数据,包括:所述任务调度服务器将所述中间数据存储于所述任务调度服务器的共享缓存中。3.根据权利要求1或2所述的方法,其特征在于,还包括:任务调度服务器将所述中间数据存储至共享存储中。4.根据权利要求3所述的方法,其特征在于,任务调度服务器将所述中间数据存储至共享存储中,包括:任务调度服务器确定当前时间距离上一存储时间达到预设时间阈值时,将所述上一存储时间之后接收到的中间数据存储至共享存储中,所述上一存储时间是指距离当前时间最近的、将中间数据存储至共享存储的时间;和/或,任务调度服务器确定上一次将中间数据存储至共享缓存之后接收到的中间数据的数据量达到数据量阈值时,将上一次将中间数据存储至共享缓存之后接收到的中间数据存储至共享存储中;和/或,任务调度服务器确定上一次将中间数据存储至共享缓存之后接收到中间数据的次数达到次数阈值时,将上一次将中间数据存储至共享缓存之后接收到的中间数据存储至共享存储中。5.一种作业控制方法,其特征在于,包括:第一批处理服务器在执行批处理作业时,每处理完n行数据后向任务调度服务器发送中间数据,所述中间数据包括:所述n行数据的脏数据以及所述脏数据的元数据信息,作为所述批处理作业执行失败时第二批处理服务器重启所述批处理作业的参考数据,n为自然数。6.一种作业控制方法,其特征在于,包括:第二批处理服务器接收到任务调度服务器发送的、用于指示第二批处理服务器重新执行失败的批处理作业的作业重启消息时,接收任务调度服务器发送的中间数据,所述中间数据包括:n行数据的脏数据以及所述脏数据的元数据信息;所述中间数据是所述任务调度服务器在所述批处理作业执行失败前最后一次接收到的中间数据;n为自然数;所述第二批处理服务器从所述中间数据记录的步骤重启所述批处理作业。7.根据权利要求6所述的方法,其特征在于,还包括:第二批处理服务器接收到任务调度服务器发送的作业重启消息,且无法从所述任务调度服务器接收到所述批处理作业的中间数据时,从共享存储获取所述批处理作业的第二数据;所述第二数据包括:所述共享存储最近一次接收到的所述批处理作业的脏数据和元数据信息;所述第二批处理服务器从所述第二数据记录的步骤重启所述批处理作业。8.一种任务调度...

【专利技术属性】
技术研发人员:晏臣闵桂龙
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1