一种对处理设备进行运维的方法及设备技术

技术编号:21308485 阅读:19 留言:0更新日期:2019-06-12 10:47
本发明专利技术提供一种对处理设备进行运维的方法及设备,该方法包括:获取故障事件的消息,该故障事件的消息指示该处理设备发生故障;根据该故障事件的消息,采集该故障事件的相关日志;根据该故障事件的相关日志,进行故障诊断;根据该故障诊断的结果,对该处理设备进行故障恢复。上述方法实现了对发生故障处理设备的自动化故障监控、日志采集、故障诊断和故障恢复,从而缩短因处理设备故障所导致的客户业务中断的时间。

A Method and Equipment for Operation and Maintenance of Processing Equipment

The invention provides a method and equipment for operation and maintenance of processing equipment. The method includes: acquiring the message of fault event, which indicates that the processing equipment has a fault; collecting the relevant log of the fault event according to the message of the fault event; diagnosing the fault according to the relevant log of the fault event; and according to the result of the fault diagnosis, diagnosing the fault. Processing equipment for fault recovery. The above method realizes automatic fault monitoring, log acquisition, fault diagnosis and fault recovery of fault handling equipment, thus shortening the time of customer business interruption caused by fault handling equipment.

【技术实现步骤摘要】
一种对处理设备进行运维的方法及设备
本申请涉及计算机
,尤其涉及一种对处理设备进行运维的方法及设备。
技术介绍
当前客户数据中心的企业存储系统在发生故障后,往往需要联系设备厂商,让设备厂商的技术服务人员到现场进行故障维护。设备厂商的技术服务人员在客户数据中心现场,通过运维工具对企业存储系统的故障信息进行采集后,将故障信息带回后进行问题定位。这种方式的故障维护活动效率非常低,响应时间较长,因此往往会造成客户运行在存储设备上的业务较长时间的中断,从而对业务的可用性造成比较大的影响。
技术实现思路
第一方面,本申请实施例提供一种对处理设备进行运维的方法,该方法包括:获取故障事件的消息,该故障事件的消息指示该处理设备发生故障。根据该故障事件的消息,采集该故障事件的相关日志。根据该故障事件的相关日志,进行故障诊断。根据该故障诊断的结果,对该处理设备进行故障恢复。上述方法实现了对发生故障处理设备的自动化故障监控、日志采集、故障诊断和故障恢复,从而,大大缩短因处理设备故障所导致的客户业务中断的时间,有效提升了处理设备集群中处理设备的可靠性和可用性。结合第一方面,在第一方面的第一种可能的实现方式中,该获取该故障事件的消息,包括:接收运维网关上报的该故障事件的消息,该故障事件的消息由该运维网关确定该处理设备集群中的处理设备发送故障后生成。该采集该故障事件的相关日志,包括:创建日志采集任务,该日志采集任务用于指示该运维网关采集该故障事件的相关日志。对该处理设备进行故障恢复,包括:创建故障恢复任务,将该故障恢复任务发送至该运维网关,该故障恢复任务用于指示该运维网关对该处理设备进行故障恢复。在本方法中,运维设备不直接与处理设备通信,而是通过运维网关主动监控处理设备,并主动向运维设备上报运维事件,可以减轻运维设备的并发压力。同时,也减少运维功能单元在处理设备上的重复部署,减轻处理设备的计算、网络等资源的压力。结合第一方面,在第一方面的第二种可能的实现方式,该方法还包括:监听该处理设备集群的故障事件。结合第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,该接收运维网关上报的该故障事件的消息,具体包括:通过超文本传输层HTTPS协议接收该运维网关上报的该故障事件的消息。结合第一方面、第一方面的第一、第二或第三种可能的实现方式,在第一方面的第四种可能的实现方式中,该处理设备包括以下三种设备的任一种:计算设备、存储设备,及网络设备。第二方面,本申请实施例提供一种对处理设备进行运维的方法,该方法包括:获取故障事件的消息,该故障事件的消息指示该处理设备发生故障。将该故障事件的消息上报至运维设备。获取该运维设备根据该故障事件的消息所创建的日志采集任务,根据该日志采集任务,采集该故障事件的相关日志,将采集到该故障事件的相关日志上报至该运维设备。获取该运维设备根据该故障事件的相关日志进行故障诊断后生成的故障恢复任务,根据该故障恢复任务,对该处理设备进行故障恢复。上述方法实现了对发生故障处理设备的自动化故障监控、日志采集、故障诊断和故障恢复,从而,大大缩短因处理设备故障所导致的客户业务中断的时间,有效提升了处理设备集群中处理设备的可靠性和可用性。运维设备不直接与处理设备通信,而是通过运维网关主动监控处理设备,并主动向运维设备上报运维事件,可以减轻运维设备的并发压力。同时,也减少运维功能单元在处理设备上的重复部署,减轻处理设备的计算、网络等资源的压力。结合第二方面,在第二方面的第一种可能的实现方式中,该方法还包括:监听该处理设备的故障事件。结合第二方面、第二方面的第一可能的实现方式,在第二方面的第二种可能的实现方式中,该处理设备包括以下三种设备的任一种:计算设备、存储设备,及网络设备。第三方面,本申请实施例提供一种运维设备,该运维设备包括消息获取单元、日志采集单元、故障分析单元和故障处理单元。该消息获取单元用于获取故障事件的消息,该故障事件的消息指示处理设备发生故障。该日志采集单元用于根据该故障事件的消息,采集该故障事件的相关日志。该故障分析单元用于根据该故障事件的相关日志,进行故障诊断。该故障处理单元用于根据该故障诊断的结果,对该处理设备进行故障恢复。上述运维设备实现了对发生故障处理设备的自动化故障监控、日志采集、故障诊断和故障恢复,从而,大大缩短因处理设备故障所导致的客户业务中断的时间,有效提升了处理设备集群中处理设备的可靠性和可用性。结合第三方面,在第三方面的第一种可能的实现方式中,该消息获取单元用于获取故障事件的消息,包括:接收运维网关上报的该故障事件的消息,该故障事件的消息由该运维网关确定该处理设备集群中的处理设备发送故障后生成。该日志采集单元用于根据该故障事件的消息,采集该故障事件的相关日志,包括:创建日志采集任务,该日志采集任务用于指示该运维网关采集该故障事件的相关日志。该故障处理单元用于根据该故障诊断的结果,对该处理设备进行故障恢复,包括:创建故障恢复任务,将该故障恢复任务发送至该运维网关,该故障恢复任务用于指示该运维网关对该处理设备进行故障恢复。运维设备不直接与处理设备通信,而是通过运维网关主动监控处理设备,并主动向运维设备上报运维事件,可以减轻运维设备的并发压力。同时,也减少运维功能单元在处理设备上的重复部署,减轻处理设备的计算、网络等资源的压力。结合第三方面,在第三方面的第二种可能的实现方式,该消息获取单元还用于:监听该处理设备集群的故障事件。结合第三方面的第一种可能的实现方式,在第三方面的第三种可能的实现方式中,该消息获取单元用于接收运维网关上报的该故障事件的消息,包括:通过超文本传输层HTTPS协议接收该运维网关上报的该故障事件的消息。结合第三方面、第三方面的第一、第二或第三种可能的实现方式,在第三方面的第四种可能的实现方式中,该处理设备包括以下三种设备的任一种:计算设备、存储设备,及网络设备。第四方面,本申请实施例提供一种运维网关,该运维网关包括故障消息上报单元、故障消息上报单元、日志上报单元和恢复任务接收单元。该故障消息上报单元用于获取故障事件的消息,该故障事件的消息指示处理设备发生故障。该用于将该故障事件的消息上报至运维设备。该日志上报单元用于获取该运维设备根据该故障事件的消息所创建的日志采集任务,根据该日志采集任务,采集该故障事件的相关日志,将采集到该故障事件的相关日志上报至该运维设备。该恢复任务接收单元执行单元用于获取该运维设备根据该故障事件的相关日志进行故障诊断后生成的故障恢复任务,根据该故障恢复任务,对该处理设备进行故障恢复。上述运维网关实现了对发生故障处理设备的自动化故障监控、日志采集、故障诊断和故障恢复,从而,大大缩短因处理设备故障所导致的客户业务中断的时间,有效提升了处理设备集群中处理设备的可靠性和可用性。运维设备不直接与处理设备通信,而是通过运维网关主动监控处理设备,可以减轻运维设备的并发压力。同时,也减少运维功能单元在处理设备上的重复部署,减轻处理设备的计算、网络等资源的压力。结合第四方面,在第四方面的第一种可能的实现方式中,该故障消息上报单元还用于:监听该处理设备集群的故障事件。结合第四方面、第四方面的第一可能的实现方式,在第四方面的第二种可能的实现方式中该处理设本文档来自技高网...

【技术保护点】
1.一种对处理设备进行运维的方法,其特征在于,所述方法包括:获取故障事件的消息,所述故障事件的消息指示所述处理设备发生故障;根据所述故障事件的消息,采集所述故障事件的相关日志;根据所述故障事件的相关日志,进行故障诊断;根据所述故障诊断的结果,对所述处理设备进行故障恢复。

【技术特征摘要】
1.一种对处理设备进行运维的方法,其特征在于,所述方法包括:获取故障事件的消息,所述故障事件的消息指示所述处理设备发生故障;根据所述故障事件的消息,采集所述故障事件的相关日志;根据所述故障事件的相关日志,进行故障诊断;根据所述故障诊断的结果,对所述处理设备进行故障恢复。2.根据权利要求1中所述的方法,其特征在于,所述获取所述故障事件的消息,包括:接收运维网关上报的所述故障事件的消息,所述故障事件的消息由所述运维网关确定所述处理设备集群中的处理设备发送故障后生成;所述采集所述故障事件的相关日志,包括:创建日志采集任务,所述日志采集任务用于指示所述运维网关采集所述故障事件的相关日志;对所述处理设备进行故障恢复,包括:创建故障恢复任务,将所述故障恢复任务发送至所述运维网关,所述故障恢复任务用于指示所述运维网关对所述处理设备进行故障恢复。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:监听所述处理设备集群的故障事件。4.根据权利要求2所述的方法,其特征在于,所述接收运维网关上报的所述故障事件的消息,具体包括:通过超文本传输层HTTPS协议接收所述运维网关上报的所述故障事件的消息。5.根据权利要求1-4中所述的方法,其特征在于,所述处理设备包括以下三种设备的任一种:计算设备、存储设备,及网络设备。6.一种对处理设备进行运维的方法,其特征在于,所述方法包括:获取故障事件的消息,所述故障事件的消息指示所述处理设备发生故障;将所述故障事件的消息上报至运维设备;获取所述运维设备根据所述故障事件的消息所创建的日志采集任务,根据所述日志采集任务,采集所述故障事件的相关日志,将采集到所述故障事件的相关日志上报至所述运维设备;获取所述运维设备根据所述故障事件的相关日志进行故障诊断后生成的故障恢复任务,根据所述故障恢复任务,对所述处理设备进行故障恢复。7.根据权利要求6中所述的方法,其特征在于,所述方法还包括:监听所述处理设备的故障事件。8.根据权利要求6或7中任一所述的方法,其特征在于,所述处理设备包括以下三种设备的任一种:计算设备、存储设备,及网络设备。9.一种运维设备,其特征在于,所述运维设备包括消息获取单元、日志采集单元、故障分析单元和故障处理单元;所述消息获取单元用于获取故障事件的消息,所述故障事件的消息指示处理设备发生故障;所述日志采集单元用于根据所述故障事件的消息,采集所述故障事件的相关日志;所述故障分析单元用于根据所述故障事件的相关日志,进行故障诊断;所述故障处理单元用于根...

【专利技术属性】
技术研发人员:张飞鹏
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1