一种大数据的故障处理方法及其相关设备技术

技术编号:31984010 阅读:16 留言:0更新日期:2022-01-20 02:01
本申请提供一种大数据的故障处理方法及其相关设备,当检测到发生故障的目标设备时,获取与目标设备对应的告警信息;其中,告警信息至少包括目标设备的目标设备序列号;对告警信息进行分析,确定目标设备的故障位置;根据设备序列号与数据库之间的关联关系,以及从与目标设备序列号关联的各个数据库中查询目标设备的历史故障信息、目标设备的属性信息,以及目标设备的配置信息;获取硬件日志和系统层级日志;根据历史故障信息、属性信息、配置信息、硬件日志和系统层级日志,确定目标设备的故障原因;根据目标设备的故障位置和目标设备的故障原因,生成目标设备的故障信息。本申请能够快速定位故障位置,提高故障恢复效率。提高故障恢复效率。提高故障恢复效率。

【技术实现步骤摘要】
一种大数据的故障处理方法及其相关设备


[0001]本专利技术涉及互联网
,更具体地说,涉及一种大数据的故障处理方法及其相关设备。

技术介绍

[0002]随着数据中心承载业务的飞速发展,数据中心管理的设备类型、数量越来越多,每天需要处理的告警、故障成倍增加。
[0003]现有的故障处理方式是,运维人员在接收到告警后到现场查看日志,确定故障具体原因,并在各种流程管理类系统中创建工单,后更换硬件设备故障部件,或采用隔离重启等方式处理软件故障。但是,采用人工处理故障的方式,不仅受制于运维人员的技术水平,如果当前运维人员对本领域不够熟悉或者技术水平较低,则无法快速定位发送故障的位置,即应急响应缓慢,影响故障恢复效率。

技术实现思路

[0004]有鉴于此,本申请提供一种大数据的故障处理方法及其相关设备,以解决现有技术中,由于当前运维人员对本领域不够熟悉或者技术水平较低,则无法快速定位发送故障的位置,即应急响应缓慢,影响故障恢复效率的问题。
[0005]本申请第一方面公开一种大数据的故障处理方法,应用于大数据集成平台,所述方法包括:
[0006]当检测到发生故障的目标设备时,获取与所述目标设备对应的告警信息;其中,所述告警信息至少包括所述目标设备的目标设备序列号;
[0007]对所述告警信息进行分析,确定所述目标设备的故障位置;
[0008]根据所述设备序列号与数据库之间的关联关系,以及从与所述目标设备序列号关联的各个数据库中查询所述目标设备的历史故障信息、所述目标设备的属性信息,以及所述目标设备的配置信息;
[0009]获取硬件日志和系统层级日志;
[0010]根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因;
[0011]根据所述目标设备的故障位置和所述目标设备的故障原因,生成所述目标设备的故障信息。
[0012]可选的,所述方法还包括:
[0013]获取多个数据项,所述多个数据项包括每个所述设备在机房中的属性信息、每个所述设备的配置信息、每个所述设备的运行状态和每个设备的历史故障信息;
[0014]针对每项所述数据项而言,根据所述数据项的数据特征,从多个所述数据库中确定与所述数据项匹配的数据库,并将所述数据项存储至与所述数据项匹配的所述数据库中;
[0015]针对每个所述设备而言,获取所述设备的设备序列号,并将所述设备的设备序列号与所述设备的各个所述数据项相关的所述数据库进行关联。
[0016]可选的,所述对所述告警信息进行分析,确定所述目标设备的故障位置,包括:
[0017]对所述告警信息进行分析,以从所述告警信息中提取关键字段;
[0018]根据所述关键字段,确定所述目标设备的故障位置。
[0019]可选的,所述获取硬件日志和系统层级日志,包括:
[0020]执行预设命令,从操作系统内部获取系统层级日志,以及通过执行预设管理命令获取硬件日志。
[0021]可选的,所述根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因,包括:
[0022]根据所述硬件日志和所述系统层级日志,确定所述目标设备的初始故障原因;
[0023]将所述初始故障原因结合所述属性信息、所述配置信息和所述历史故障信息进行综合分析,确定所述目标设备的故障原因。
[0024]可选的,所述方法还包括:
[0025]获取所述目标设备的上下游的多个其他设备的设备信息、所述目标设备当前运行的应用系统的系统信息、以及故障部件影响范围;其中所述故障部件为所述目标设备的故障位置对应的部件;
[0026]确定所述目标设备当前所处的集群模式,并根据所述集群模式、所述多个其他设备的设备信息、所述系统信息以及所述故障部件影响范围,从预先设置的多条维护建议中,确定并输出目标维护建议。
[0027]可选的,所述方法还包括:
[0028]根据所述故障部件影响范围判断所述目标设备的故障位置对应的部件是否需要进行故障处置操作;
[0029]若所述目标设备的故障位置对应的部件需要进行故障处置操作,则对所述目标设备的故障位置对应的部件进行相应的故障处置操作。
[0030]本申请第二方面公开一种大数据集成平台,包括:
[0031]告警信息获取单元,用于当检测到发生故障的目标设备时,获取与所述目标设备对应的告警信息;其中,所述告警信息至少包括所述目标设备的目标设备序列号;
[0032]告警信息分析单元,用于对所述告警信息进行分析,确定所述目标设备的故障位置;
[0033]查询单元,用于根据所述设备序列号与数据库之间的关联关系,以及从与所述目标设备序列号关联的各个数据库中查询所述目标设备的历史故障信息、所述目标设备的属性信息,以及所述目标设备的配置信息;
[0034]日志获取单元,用于获取硬件日志和系统层级日志;
[0035]故障原因确定单元,用于根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因;
[0036]故障信息生成单元,用于根据所述目标设备的故障位置和所述目标设备的故障原因,生成所述目标设备的故障信息。
[0037]本申请第三方面公开一种电子设备,所述电子设备包括处理器和存储器,所述存
储器用于存储大数据的故障处理的程序代码和数据,所述处理器用于调用所述存储器中的程序指令执行如上述本申请第一方面公开的一种大数据的故障处理方法。
[0038]本申请第四方面公开一种存储介质,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上述本申请第一方面公开的一种大数据的故障处理方法。
[0039]本申请提供一种大数据的故障处理方法及其相关设备,应用于大数据集成平台,预先将各个的设备的各个数据项(历史故障信息、属性信息和配置信息)集成对应的数据库中,并通过建立设备的设备序列号与该设备对应的数据库之间的关联关系,进而在检测到发生故障的目标设备时,获取与目标设备对应的告警信息,并对该告警信息进行分析,确定目标设备上发生故障的故障位置;根据预先设置的设备序列号与数据库之间的对应关系,从与该告警信息中的设备序列号关联的各个数据库中查询目标设备的历史故障信息、目标设备的属性信息以及目标设备的配置信息,获取硬件日志和系统层级日志,根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因;最后根据所述目标设备的故障位置和所述目标设备的故障原因,生成所述目标设备的故障信息,整个过程无需运维人员参与,从而解决了现有技术中,由于当前运维人员对本领域不够熟悉或者技术水平较低,无法快速定位发送故障的位置,即应急响应缓慢,影响故障恢复效率的问题。
附图说明
[0040]为了更清楚地说明本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据的故障处理方法,其特征在于,应用于大数据集成平台,所述方法包括:当检测到发生故障的目标设备时,获取与所述目标设备对应的告警信息;其中,所述告警信息至少包括所述目标设备的目标设备序列号;对所述告警信息进行分析,确定所述目标设备的故障位置;根据所述设备序列号与数据库之间的关联关系,以及从与所述目标设备序列号关联的各个数据库中查询所述目标设备的历史故障信息、所述目标设备的属性信息,以及所述目标设备的配置信息;获取硬件日志和系统层级日志;根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因;根据所述目标设备的故障位置和所述目标设备的故障原因,生成所述目标设备的故障信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取多个数据项,所述多个数据项包括每个所述设备在机房中的属性信息、每个所述设备的配置信息、每个所述设备的运行状态和每个设备的历史故障信息;针对每项所述数据项而言,根据所述数据项的数据特征,从多个所述数据库中确定与所述数据项匹配的数据库,并将所述数据项存储至与所述数据项匹配的所述数据库中;针对每个所述设备而言,获取所述设备的设备序列号,并将所述设备的设备序列号与所述设备的各个所述数据项相关的所述数据库进行关联。3.根据权利要求1所述的方法,其特征在于,所述对所述告警信息进行分析,确定所述目标设备的故障位置,包括:对所述告警信息进行分析,以从所述告警信息中提取关键字段;根据所述关键字段,确定所述目标设备的故障位置。4.根据权利要求1所述的方法,其特征在于,所述获取硬件日志和系统层级日志,包括:执行预设命令,从操作系统内部获取系统层级日志,以及通过执行预设管理命令获取硬件日志。5.根据权利要求1所述的方法,其特征在于,所述根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因,包括:根据所述硬件日志和所述系统层级日志,确定所述目标设备的初始故障原因;将所述初始故障原因结合所述属性信息、所述配置信息和所述历史故障信息进行综合分析,确定所述目标设备的故障原因。6.根据权...

【专利技术属性】
技术研发人员:潘鲁远
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1