一种遥感卫星处理系统中自动发现任务失败和恢复方法技术方案

技术编号:33119383 阅读:39 留言:0更新日期:2022-04-17 00:15
本申请提供一种遥感卫星处理系统中自动发现任务失败和恢复方法,该方法包括:根据建立的错误捕捉机制,在监测到任务执行失败的情况下,重新发起失败任务的执行;若所述失败任务再次执行失败,则终止所述失败任务所对应的第一任务流程的执行;所述第一任务流程包括至少一个子任务;分析任务执行失败对所述第一任务流程的执行过程的影响域,并确定所述第一任务流程中对重新启动所述第一任务流程的执行过程的影响程度最小的目标任务;基于所述目标任务创建第二任务流程,将所述目标任务作为所述第二任务流程的起始任务;其中,所述第二任务流程为所述第一任务流程终止后,重新启动所述第一任务流程时所执行的任务流程。述第一任务流程时所执行的任务流程。述第一任务流程时所执行的任务流程。

【技术实现步骤摘要】
一种遥感卫星处理系统中自动发现任务失败和恢复方法


[0001]本申请涉及遥感卫星数据处理领域,尤其涉及一种遥感卫星处理系统中自动发现任务失败和恢复方法。

技术介绍

[0002]在遥感卫星处理系统中,通常包含几十、甚至上百个处理节点,同一时刻存在数十万个处理任务。在任务处理的过程中,由于硬件和系统软件的偶发错误,如存储文件系统偶发读写错误,机群通信偶发错误、作业调度系统偶发错误等,容易出现处理任务失败的情况,造成系统不能正常处理遥感数据,导致系统可用性降低。
[0003]在相关技术中,可以通过人工发现并解决问题,但需要细致的工作和精力,效率较低;或者采取面向专用计算作用的容错机制增加系统的容错能力,但时间开销较大。

技术实现思路

[0004]本申请的目的是提供一种遥感卫星处理系统中自动发现任务失败和恢复方法,用于感卫星处理系统中失败任务的自动发现和恢复。
[0005]本申请提供一种遥感卫星处理系统中自动发现任务失败和恢复方法,包括:根据建立的错误捕捉机制,在监测到任务执行失败的情况下,重新发起失败任务的执行;若所述失败任务再次执行失败,则终止所述失败任务所对应的第一任务流程的执行;所述第一任务流程包括至少一个子任务;分析任务执行失败对所述第一任务流程的执行过程的影响域,并确定所述第一任务流程中对重新启动所述第一任务流程的执行过程的影响程度最小的目标任务;基于所述目标任务创建第二任务流程,将所述目标任务作为所述第二任务流程的起始任务;其中,所述第二任务流程为所述第一任务流程终止后,重新启动所述第一任务流程时所执行的任务流程。
[0006]可选地,所述根据建立的错误捕捉机制,在监测到任务执行失败的情况下,重新发起失败任务的执行;若所述失败任务再次执行失败,则终止所述失败任务所对应的第一任务流程的执行之前,所述方法还包括:建立错误捕捉机制,在系统的任务流程的执行过程中,若出现任务执行失败的情况,则输出对应的标准错误输出文件。
[0007]可选地,所述根据建立的错误捕捉机制,在监测到任务执行失败的情况下,重新发起失败任务的执行;若所述失败任务再次执行失败,则终止所述失败任务所对应的第一任务流程的执行,包括:监测标准错误输出文件的生成,在监测到标准错误输出文件生成的情况下,根据生成的标准错误输出文件,确定任务执行失败的第一任务节点对应的第一任务的任务信息;根据所述第一任务的任务信息,重新执行所述第一任务。
[0008]可选地,所述分析任务执行失败对所述第一任务流程的执行过程的影响域,并确定所述第一任务流程中对重新启动所述第一任务流程的执行过程的影响程度最小的目标任务,包括:在重新执行所述第一任务失败的情况下,根据所述第一任务的任务信息,确定与所述第一任务对应的所述第一任务流程;其中,所述第一任务节点为所述第一任务流程
中所述第一任务对应的任务节点。
[0009]可选地,所述在重新执行所述第一任务失败的情况下,根据所述第一任务的任务信息,确定与所述第一任务对应的所述第一任务流程之后,所述方法还包括:依次倒序遍历所述第一任务流程中所述第一任务节点以及之前的任务节点中各个任务节点所对应任务的输入数据;将所述第一任务流程中距离所述第一任务节点最近、且存在执行任务所需的输入数据的第二任务节点所对应的第二任务确定为所述目标任务。
[0010]可选地,所述根据生成的标准错误输出文件,确定任务执行失败的第一任务节点对应的第一任务的任务信息,包括:采用作业调度系统获取所述标准错误输出文件,并根据所述标准错误输出文件中的错误任务名称,和/或,错误任务编号确定所述第一任务的任务信息;其中,所述作业调度系统包括以下任一项:便携式批处理系统PBS、负载共享设施LSF、用于资源管理的简单Linux实用程序SLURM。
[0011]本申请提供的遥感卫星处理系统中自动发现任务失败和恢复方法,首先建立错误捕捉机制,根据建立的错误捕捉机制,在监测到任务执行失败的情况下,重新发起失败任务的执行;若所述失败任务再次执行失败,则终止所述失败任务所对应的第一任务流程的执行。之后,分析任务执行失败对所述第一任务流程的执行过程的影响域,并确定所述第一任务流程中对重新启动所述第一任务流程的执行过程的影响程度最小的目标任务。最后,基于所述目标任务创建第二任务流程,将所述目标任务作为所述第二任务流程的起始任务,解决了因处理系统偶发故障引起的处理任务失败的问题,取代了传统的人工筛查失败任务,手动发起错误任务等复杂方法,提高了系统的可用性。
附图说明
[0012]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1是本申请提供的遥感卫星处理系统中自动发现任务失败和恢复方法的流程示意图之一;图2是本申请提供的遥感卫星处理系统中自动发现任务失败和恢复方法的流程示意图之二;图3是本申请提供的捕捉任务错误流程示意图;图4是本申请提供的错误任务影响域分析流程示意图;图5是本申请提供的流程描述文件中的相关信息。
具体实施方式
[0014]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0015]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对
象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0016]在几十上百个处理节点,PB(petabyte)级别存储系统的遥感卫星处理系统中,同一时刻存在数十万个处理任务,该处理系统属于典型的计算密集和数据密集型处理系统。在任务处理的过程中,由于硬件和系统软件的偶发错误,如存储文件系统偶发读写错误,机群通信偶发错误、作业调度系统偶发错误等,容易出现处理任务失败的情况,造成系统不能正常处理遥感数据,导致系统可用性降低。
[0017]为了解决此类问题,目前解决方案主要有种:1)人为发现错误,判断错误发生步骤,再从合理的中间步骤或者从初始步骤发起,这需要细致的工作和精力,且效率低下;2)面向通用大数据处理作业的容错与发起措施,如专为大规模数据处理而设计的快速通用的计算引擎Apache Spark,能够基于较细粒度的数据或者任务进行冗余状态管理,但同时也受本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种遥感卫星处理系统中自动发现任务失败和恢复方法,其特征在于,包括:根据建立的错误捕捉机制,在监测到任务执行失败的情况下,重新发起失败任务的执行;若所述失败任务再次执行失败,则终止所述失败任务所对应的第一任务流程的执行;所述第一任务流程包括至少一个子任务;分析任务执行失败对所述第一任务流程的执行过程的影响域,并确定所述第一任务流程中对重新启动所述第一任务流程的执行过程的影响程度最小的目标任务;基于所述目标任务创建第二任务流程,将所述目标任务作为所述第二任务流程的起始任务;其中,所述第二任务流程为所述第一任务流程终止后,重新启动所述第一任务流程时所执行的任务流程。2.根据权利要求1所述的方法,其特征在于,所述根据建立的错误捕捉机制,在监测到任务执行失败的情况下,重新发起失败任务的执行;若所述失败任务再次执行失败,则终止所述失败任务所对应的第一任务流程的执行之前,所述方法还包括:建立错误捕捉机制,在系统的任务流程的执行过程中,若出现任务执行失败的情况,则输出对应的标准错误输出文件。3.根据权利要求2所述的方法,其特征在于,所述根据建立的错误捕捉机制,在监测到任务执行失败的情况下,重新发起失败任务的执行;若所述失败任务再次执行失败,则终止所述失败任务所对应的第一任务流程的执行,包括:监测标准错误输出文件的生成,在监测到标准错误输出文件生成的情况下,根据生成的标准错误输出文件,确定任务执行失败的第一任务节点对应的第一任务的任务信...

【专利技术属性】
技术研发人员:李景山赵灵军程玉芳
申请(专利权)人:中国科学院空天信息创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1