The embodiment of the invention discloses an operation control method and server, method includes: task scheduling server receives the first batch processing server each intermediate data n data after performing batch operations, the intermediate data including the dirty data n data and the metadata information of dirty data the scheduling server; storing the intermediate data; task scheduling server to determine the first batch batch job execution server failure, choose to implement the second batch batch job scheduling server server; the number of intermediate data processing operations before the failure of the last received to the the second batch processing server, as the second batch server restart the batch job reference data. Embodiments of the invention can shorten the time overhead of batch processing jobs due to server failures, and improve the execution efficiency of batch processing jobs.
【技术实现步骤摘要】
作业控制方法及服务器
本专利技术涉及通信领域,尤其涉及一种作业控制方法及服务器。
技术介绍
大型机(Mainframecomputer)是由IBM公司最早专利技术的大型计算机,由于其强大的处理能力和优越的可靠性,主要用于证券、基金、股票、能源等行业的核心应用。由于大型机的购买和维护费用高昂、新业务应用开发周期长、专业技术人员数量稀少、以及小型机和X86服务器的性能和可靠性逐步提升等相关原因,目前,已有大量的大型机客户正在评估或实施将业务从大型机迁移到小型机或X86服务器上。大型机的业务主要分为联机交易(online)和批处理(batch)两大类。批处理作业一般用于大数据量的集中处理,一个典型的例子是,银行为某大型企业的所有员工代发工资。从这个例子可以总结出批处理作业的一些特点:数据量和计算量大(一家大型企业的员工以万计)、业务处理流程相同(核算和转账工资)、周期性(代发工资业务在每个月的固定日期触发)。批处理作业一般有一个时间窗口(TimeWindow),在某个时间段(比如00:00到4:00之间)内,所有的批处理作业必须执行完成。在时间窗口内,批处理作业未执行完成的,可能会影响后续业务的正常开展。由于X86服务器发展较晚等原因,其可靠性没有大型机那么优秀,比如大型机的可用性通常能达到99.999%,这意味着在一年的时间里,大型机意外停机的时间不超过5.3分钟;如果X86服务器的可用性为99.99%,这意味着它一年内意外停机的时间为53分钟。因此,由X86服务器替换大型机所形成的X86系统中,由于X86服务器意外宕机给批处理作业时间窗口带来的影响更大。当把 ...
【技术保护点】
一种作业控制方法,其特征在于,包括:任务调度服务器接收第一批处理服务器在执行批处理作业时每处理完n行数据后发送的中间数据,所述中间数据携带:所述n行数据的脏数据以及所述脏数据的元数据信息;n为自然数;所述任务调度服务器存储所述中间数据;所述任务调度服务器判断所述批处理作业执行失败时,选择重新执行所述批处理作业的第二批处理服务器;所述任务调度服务器将所述批处理作业执行失败前所述任务调度服务器最后一次接收到的中间数据发送至所述第二批处理服务器,作为所述第二批处理服务器重启所述批处理作业的参考数据。
【技术特征摘要】
1.一种作业控制方法,其特征在于,包括:任务调度服务器接收第一批处理服务器在执行批处理作业时每处理完n行数据后发送的中间数据,所述中间数据携带:所述n行数据的脏数据以及所述脏数据的元数据信息;n为自然数;所述任务调度服务器存储所述中间数据;所述任务调度服务器判断所述批处理作业执行失败时,选择重新执行所述批处理作业的第二批处理服务器;所述任务调度服务器将所述批处理作业执行失败前所述任务调度服务器最后一次接收到的中间数据发送至所述第二批处理服务器,作为所述第二批处理服务器重启所述批处理作业的参考数据。2.根据权利要求1所述的方法,其特征在于,所述任务调度服务器存储所述中间数据,包括:所述任务调度服务器将所述中间数据存储于所述任务调度服务器的共享缓存中。3.根据权利要求1或2所述的方法,其特征在于,还包括:任务调度服务器将所述中间数据存储至共享存储中。4.根据权利要求3所述的方法,其特征在于,任务调度服务器将所述中间数据存储至共享存储中,包括:任务调度服务器确定当前时间距离上一存储时间达到预设时间阈值时,将所述上一存储时间之后接收到的中间数据存储至共享存储中,所述上一存储时间是指距离当前时间最近的、将中间数据存储至共享存储的时间;和/或,任务调度服务器确定上一次将中间数据存储至共享缓存之后接收到的中间数据的数据量达到数据量阈值时,将上一次将中间数据存储至共享缓存之后接收到的中间数据存储至共享存储中;和/或,任务调度服务器确定上一次将中间数据存储至共享缓存之后接收到中间数据的次数达到次数阈值时,将上一次将中间数据存储至共享缓存之后接收到的中间数据存储至共享存储中。5.一种作业控制方法,其特征在于,包括:第一批处理服务器在执行批处理作业时,每处理完n行数据后向任务调度服务器发送中间数据,所述中间数据包括:所述n行数据的脏数据以及所述脏数据的元数据信息,作为所述批处理作业执行失败时第二批处理服务器重启所述批处理作业的参考数据,n为自然数。6.一种作业控制方法,其特征在于,包括:第二批处理服务器接收到任务调度服务器发送的、用于指示第二批处理服务器重新执行失败的批处理作业的作业重启消息时,接收任务调度服务器发送的中间数据,所述中间数据包括:n行数据的脏数据以及所述脏数据的元数据信息;所述中间数据是所述任务调度服务器在所述批处理作业执行失败前最后一次接收到的中间数据;n为自然数;所述第二批处理服务器从所述中间数据记录的步骤重启所述批处理作业。7.根据权利要求6所述的方法,其特征在于,还包括:第二批处理服务器接收到任务调度服务器发送的作业重启消息,且无法从所述任务调度服务器接收到所述批处理作业的中间数据时,从共享存储获取所述批处理作业的第二数据;所述第二数据包括:所述共享存储最近一次接收到的所述批处理作业的脏数据和元数据信息;所述第二批处理服务器从所述第二数据记录的步骤重启所述批处理作业。8.一种任务调度...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。