一种应对突发性故障的云应用续算方法及系统技术方案

技术编号:31487869 阅读:38 留言:0更新日期:2021-12-18 12:23
本发明专利技术公开了一种应对突发性故障的云应用续算方法及系统,在云计算集群中指定一个执行云应用的执行节点和负责监督对应执行节点执行的监督节点;执行节点运行云应用执行程序,监督节点运行监听程序;当监听程序监测到执行节点中的云应用发生异常时,监听程序所在监督节点启动云应用续算处理,接续完成被中断云应用未完成的计算工作。本发明专利技术实现了快速的云计算任务故障发现与容错续算处理,同时,相较于现有容错方式更加节约云平台的计算、存储、通信资源,并且有效减少了云平台管理节点的容错管理负载。的容错管理负载。的容错管理负载。

【技术实现步骤摘要】
一种应对突发性故障的云应用续算方法及系统


[0001]本专利技术属于云计算
,具体涉及一种应对突发性故障的云应用续算方法及系统。

技术介绍

[0002]随着云计算技术的迅速发展,云计算集群的规模在不断扩大,同时也将提供越发丰富且完善的服务。在云计算集群中,提供服务的服务器、虚拟机、容器、应用程序等各个层级都可能发生故障,导致正在执行的任务中断。所以,如何应对突发性的故障一直以来都是相关邻域的热门研究方向。
[0003]目前,在云计算领域中已经有相当多的故障应对机制,但大多数都是对云计算集群中的云节点进行整体备份,即定时保存云节点的状态与数据,当云节点发送突发性故障时则可以将故障节点的数据与状态在其他正常节点上恢复。随着云计算网络越发庞大,大量的云节点需要通过备份来进行故障容错,这将对云计算集群的存储容量与通信带宽造成巨大的压力与浪费。这样的方式不仅在备份时产生巨大开销,而且故障发生后也无法做到十分迅速地处理。并且,大多数云计算集群中的容错机制无法保留云应用的中间数据,这意味这发生故障后会丢失云应用已经完成了的计算工作,在其他正常节本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种应对突发性故障的云应用续算方法,其特征在于,在云计算集群中指定一个执行云应用的执行节点和负责监督对应执行节点执行的监督节点;执行节点运行云应用执行程序,监督节点运行监听程序;当监听程序监测到执行节点中的云应用执行程序发生异常时,监听程序所在的监督节点启动云应用续算处理,接续完成被中断云应用执行程序未完成的计算工作。2.根据权利要求1所述的方法,其特征在于,对执行节点所运行的云应用进行阶段划分,分析程序运行过程中的关键性操作与产生的关键性中间数据;然后将划分阶段按执行逻辑顺序编排阶段号,并且以每一阶段结束时产生的、下一阶段计算所需要的关键性数据作为阶段断点,保证节点拥有应用程序、已完成阶段号、对应的阶段断点时即从已完成的阶段开始继续执行未完成的计算。3.根据权利要求2所述的方法,其特征在于,执行节点和监督节点上均建立有分布式内存数据库,阶段断点的保存与获取基于分布式内存数据库,执行节点将已完成的阶段断点数据的保存在分布式内存数据库中,监督节点通过云应用编号和阶段号作为索引从分布式内存数据库中获取断点数据。4.根据权利要求1所述的方法,其特征在于,云应用执行程序定时向监督节点发送携带最近已完成的阶段号信息的心跳包,监督节点运行监听程序通过监听心跳包判断任务执行是否异常中断。5.根据权利要求4所述的方法,其特征在于...

【专利技术属性】
技术研发人员:陈衡蔡玮林王子衡赵明强张兴军
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1