一种网关设备故障处理方法及装置制造方法及图纸

技术编号:15518266 阅读:189 留言:0更新日期:2017-06-04 08:33
本发明专利技术公开了一种网关设备故障处理方法。当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务,根据下发计算任务时的参数筛选待分配计算任务,结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将待分配计算任务调度至当前状态为正常的其他网关设备,最后恢复待分配计算任务的任务状态,并通过其他网关设备执行待分配计算任务。从而避免了由于网关设备发生故障而导致的计算任务失败问题,提高了整体的计算任务执行效率以及保障了系统的稳定性。

【技术实现步骤摘要】
一种网关设备故障处理方法及装置
本申请涉及通信
,特别涉及一种网关设备故障处理方法。本申请同时还涉及一种网关设备故障处理装置。
技术介绍
随着互联网的不断发展,大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。对于目前互联网的大中型服务提供商或是平台运营商来说,为了能够通过大数据研究用户的行为,其一般都会部署专用的数据管理平台,这些数据管理平台一般由多个服务器组成集群共同处理数据,与服务器集群连接的同时还有网关设备(又称为网关设备),网关设备负责将相关的数据分析计算任务提交至服务器集群。由于客观因素,网关设备有时会在数据分析过程中出现故障,此时需要进行Failover处理(失效转移)处理。Failover处理是一种备份操作模式,当主要组件由于失效或预定关机时间的原因而无法工作时,这种模式中的系统组件(比如处理机、服务器、网络或数据库)的功能被转嫁到二级系统组件。在针对数据进行分析的过程中,网关设备可能出现的故障情形包括以下几种:情形1、网关设备发生宕机在该情况下,网关设备将进行重启,由计算任务分发主控机进行Failover处理。情形2、网关设备与系统断开网络,但是网关设备本身的进程尚存活:在该情况下,网关设备需要保证结束已经启动的进程,随后由计算任务分发主控机进行Failover处理。情形3、网关设备的进程发生崩溃这种情况下,需要使用一种机制保证能够结束网关设备上的进程,计算任务分发主控机进行Failover处理。针对上述若干种故障情形,现有技术中所采取的Failover处理方案如图1所示,包括以下步骤:S101,网关设备发生故障(包括宕机、断网、进程崩溃等);S102,触发Failover处理;S103,结束当前网关设备上的计算任务;S104,结束当前网关设备提交到计算集群的作业;S105,将计算任务重新调度到另一台网关设备;S106,计算任务重新运行。专利技术人在实现本申请的过程中发现,现有技术在当网关设备机器出现宕机、断网、进程崩溃等故障时,计算任务Failover处理的代价非常大,需要重头开始运行整个计算任务,既浪费计算资源,又延迟了计算任务本身的运行时间,从而导致效率十分低下。
技术实现思路
本专利技术提供了一种网关设备故障处理方法,用以在网关设备发生故障时保证已运行计算任务的正常运行,从而节省计算资源以及提高计算任务处理效率。该方法包括以下步骤:当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务;根据下发所述计算任务时的参数筛选待分配计算任务,所述参数用于指示所述计算任务是否需要进行失效转移Failover处理;结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将所述待分配计算任务调度至当前状态为正常的其他网关设备;恢复所述待分配计算任务的任务状态,并通过所述其他网关设备执行所述待分配计算任务。优选地,当检测到网关设备发生故障时,获取发生故障的网关设备正在执行的计算任务,具体为:对当前各网关设备在启动时注册的临时文件进行检测;当有临时文件被删除时,将与被删除临时文件对应的网关设备作为所述网关设备,并获取所述网关设备当前正在执行的计算任务。优选地,根据下发所述计算任务时的参数筛选待分配计算任务,具体为:确定所述参数的Failover处理取值是否为有效状态;若所述Failover处理取值为有效状态,将所述计算任务作为所述待分配计算任务置于优先级最高的队列;若所述Failover处理取值为无效状态,将所述计算任务置错。优选地,结束发生故障的网关设备当前正在运行的计算任务,具体为:若所述网关设备当前的故障类型为断网,遍历所述网关设备当前所有的进程,并结束所述网关设备的长驻进程;若所述网关设备当前的故障类型为进程崩溃,将所述网关设备启动的长驻进程结束。优选地,在通过所述其他网关设备执行所述待分配计算任务之后,还包括:查询所述待分配计算任务的任务状态,以及所述待分配计算任务是否在所述其他网关设备运行;若所述待分配计算任务处于运行状态,获取所述待分配计算任务的任务状态和计算任务日志;若所述待分配计算任务运行失败,重新提交所述待分配计算任务,并获取所述待分配计算任务的任务状态和计算任务日志;若所述待分配计算任务已运行结束,提交在所述待分配计算任务之后的其他计算任务,并获取所述其他计算任务的任务状态和计算任务日志。相应地,本申请还提出了一种网关设备故障处理装置,包括:获取模块,当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务;筛选模块,根据下发所述计算任务时的参数筛选待分配计算任务,所述参数用于指示所述计算任务是否需要进行Failover处理;结束模块,结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将所述待分配计算任务调度至当前状态为正常的其他网关设备;恢复模块,恢复所述待分配计算任务的任务状态,并通过所述其他网关设备执行所述待分配计算任务。优选地,所述获取模块具体用于:对当前各网关设备在启动时注册的临时文件进行检测;当有临时文件被删除时,将与被删除临时文件对应的网关设备作为所述网关设备,并获取所述网关设备当前正在执行的计算任务。优选地,所述筛选模块具体用于:确定所述参数的Failover处理取值是否为有效状态;若所述Failover处理取值为有效状态,将所述计算任务作为所述待分配计算任务置于优先级最高的队列;若所述Failover处理取值为无效状态,将所述计算任务置错。优选地,所述结束模块具体用于:若所述网关设备当前的故障类型为断网,遍历所述网关设备当前所有的进程,并结束所述网关设备的长驻进程;若所述网关设备当前的故障类型为进程崩溃,将所述网关设备启动的长驻进程结束。优选地,还包括:查询模块,查询所述待分配计算任务的任务状态,以及所述待分配计算任务是否在所述其他网关设备运行;若所述待分配计算任务处于运行状态,所述查询模块获取所述待分配计算任务的任务状态和计算任务日志;若所述待分配计算任务运行失败,所述查询模块重新提交所述待分配计算任务,并获取所述待分配计算任务的任务状态和计算任务日志;若所述待分配计算任务已运行结束,所述查询模块提交在所述待分配计算任务之后的其他计算任务,并获取所述其他计算任务的任务状态和计算任务日志。由此可见,通过应用本申请的技术方案,当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务,根据下发计算任务时的参数筛选待分配计算任务,结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将待分配计算任务调度至当前状态为正常的其他网关设备,最后恢复待分配计算任务的任务状态,并通过其他网关设备执行待分配计算任务。从而避免了由于网关设备发生故障而导致的计算任务失败问题,提高了整体的计算任务执行效率以及保障了系统的稳定性。附图说明图1为现有技术中针对网关设备进行Failover处理的方案示意图;图2为本申请提出的一种网关设备故障处理方法的流程示意图;图3为本文档来自技高网
...
一种网关设备故障处理方法及装置

【技术保护点】
一种网关设备故障处理方法,其特征在于,包括:当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务;根据下发所述计算任务时的参数筛选待分配计算任务,所述参数用于指示所述计算任务是否需要进行失效转移Failover处理;结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将所述待分配计算任务调度至当前状态为正常的其他网关设备;恢复所述待分配计算任务的任务状态,并通过所述其他网关设备执行所述待分配计算任务。

【技术特征摘要】
1.一种网关设备故障处理方法,其特征在于,包括:当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务;根据下发所述计算任务时的参数筛选待分配计算任务,所述参数用于指示所述计算任务是否需要进行失效转移Failover处理;结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将所述待分配计算任务调度至当前状态为正常的其他网关设备;恢复所述待分配计算任务的任务状态,并通过所述其他网关设备执行所述待分配计算任务。2.如权利要求1所述的方法,其特征在于,当检测到网关设备发生故障时,获取发生故障的网关设备正在执行的计算任务,具体为:对当前各网关设备在启动时注册的临时文件进行检测;当有临时文件被删除时,将与被删除临时文件对应的网关设备作为所述网关设备,并获取所述网关设备当前正在执行的计算任务。3.如权利要求1所述的方法,其特征在于,根据下发所述计算任务时的参数筛选待分配计算任务,具体为:确定所述参数的Failover处理取值是否为有效状态;若所述Failover处理取值为有效状态,将所述计算任务作为所述待分配计算任务置于优先级最高的队列;若所述Failover处理取值为无效状态,将所述计算任务置错。4.如权利要求1所述的方法,其特征在于,结束发生故障的网关设备当前正在运行的计算任务,具体为:若所述网关设备当前的故障类型为断网,遍历所述网关设备当前所有的进程,并结束所述网关设备的长驻进程;若所述网关设备当前的故障类型为进程崩溃,将所述网关设备启动的长驻进程结束。5.如权利要求1所述的方法,其特征在于,在通过所述其他网关设备执行所述待分配计算任务之后,还包括:查询所述待分配计算任务的任务状态,以及所述待分配计算任务是否在所述其他网关设备运行;若所述待分配计算任务处于运行状态,获取所述待分配计算任务的任务状态和计算任务日志;若所述待分配计算任务运行失败,重新提交所述待分配计算任务,并获取所述待分配计算任务的任务状态和计算任务日志;若所述待分配计算任务已运行结束,提交在所述待分配计算任务之后的其他计算任务,并...

【专利技术属性】
技术研发人员:曾文秋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1