故障处理方法、装置及计算机可读存储介质制造方法及图纸

技术编号:37497203 阅读:24 留言:0更新日期:2023-05-07 09:34
本申请涉及大数据处理领域,公开了一种故障处理方法、装置及计算机可读存储介质。该方法包括:在出现数据仓库任务故障时获取工具日志和任务运行日志;工具日志为执行数据仓库任务的大数据处理系统中的大数据工具设备的工作日志;任务运行日志为执行数据仓库任务的大数据处理系统中的大数据平台的工作日志;调用目标故障分类模型对工具日志和任务运行日志处理,得到故障类别;故障类别为工具侧故障或数仓侧故障或平台侧故障;根据故障类别确定故障责任人并向故障责任终端发送告警信息;故障责任终端为故障责任人对应的故障责任终端;告警信息用于指示故障责任人对数据仓库任务出现的故障进行处理。应用本发明专利技术的技术方案,能够提高故障处理效率。够提高故障处理效率。够提高故障处理效率。

【技术实现步骤摘要】
故障处理方法、装置及计算机可读存储介质


[0001]本专利技术实施例涉及大数据
,具体涉及一种故障处理方法、装置及计算机可读存储介质。

技术介绍

[0002]随着大数据行业的发展,每个公司都有大量的ETL(Extract

Transform

Load,抽取

转换

加载)任务需要维护,特别是出现数据故障的时候需要告警到相关责任人来快速修复。但是,由于ETL任务的执行链路比较长,会涉及到数据仓库、大数据平台和大数据工具。所以ETL任务的故障告警经常会发送给并不是实际故障的责任人或者是能解决故障的人。而且整个过程中需要人工一层一层判断然后联系可能的故障责任人,导致浪费大量人力和沟通成本,且故障解决的效率较低。

技术实现思路

[0003]鉴于上述问题,本专利技术实施例提供了一种故障处理方法、装置及计算机可读存储介质,用于解决现有技术中存在的故障责任人确定困难,故障解决效率低的问题。
[0004]第一方面,本申请提供一种故障处理方法,该方法包括:在出现数据仓库任务故障时,获取工具日志和任务运行日志;工具日志为执行数据仓库任务的大数据处理系统中的大数据工具设备的工作日志;任务运行日志为执行数据仓库任务的大数据处理系统中的大数据平台的工作日志;将工具日志和任务运行日志输入目标故障分类模型中,得到故障类别;故障类别为以下任一项:工具侧故障、数仓侧故障、平台侧故障;根据故障类别,确定故障责任人并向故障责任终端发送告警信息;故障责任终端为故障责任人对应的故障责任终端;告警信息用于指示故障责任人对数据仓库任务出现的故障进行处理。
[0005]在第一方面的一种可能的设计方式中,根据故障类别,确定故障责任人并向故障责任终端发送告警信息,包括:若故障类别为工具侧故障,则根据大数据工具设备的责任表确定大数据工具设备对应的工具责任人以及工具责任人的通讯信息;责任表包括多个工具管理人员的通讯信息,以及工具管理人员与负责大数据工具设备的时间段的对应关系;将工具责任人确定为故障责任人,并利用工具责任人的通讯信息向工具责任终端发送告警信息。
[0006]在第一方面的一种可能的设计方式中,根据故障类别,确定故障责任人并向故障责任终端发送告警信息,包括:若故障类别为数仓侧故障,获取数据仓库任务的第一子任务的第一变更记录;第一变更记录为第一子任务版本变更记录或第一子任务表变更记录;若根据第一变更记录确定第一子任务存在任务版本变更或任务表变更,则将第一子任务对应的最新的第一变更人确定为故障责任人并向第一变更人对应的第一变更终端发送告警信息。
[0007]在第一方面的一种可能的设计方式中,获取数据仓库任务的第一子任务的第一变更记录之后,该方法还包括:若根据第一变更记录确定第一子任务不存在任务版本变更或
任务表变更,则获取第二子任务的第二变更记录;第二子任务为数据仓库任务中第一子任务的上游任务;第二变更记录为第二子任务版本变更记录或第二子任务表变更记录;若根据第二变更记录确定第二子任务存在任务版本变更或任务表变更,则将第二子任务的新版本变更对应的第二变更人确定为故障责任人并向第二变更人对应的第二变更终端发送告警信息;若根据第二变更记录确定第二子任务不存在任务版本变更或任务表变更,则将第一子任务对应的最新的第一变更人确定为故障责任人并向第一变更人对应的第一变更终端发送告警信息。
[0008]在第一方面的一种可能的设计方式中,根据故障类别,确定故障责任人并向故障责任终端发送告警信息,包括:若故障类别为平台故障,则获取大数据平台的集群运行状态参数;若集群运行状态参数指示大数据平台的目标组件存在异常,则将目标组件对应的组件责任人确定为故障责任人,并向组件责任人对应的组件责任终端发送告警信息;若集群运行状态参数指示大数据平台的配置参数存在变更,则向将大数据平台对应的平台责任人确定为故障责任人,并向平台责任人对应的平台责任终端发送告警信息。
[0009]在第一方面的一种可能的设计方式中,获取大数据平台的集群运行状态参数之后,该方法还包括:若集群运行状态参数指示大数据平台的所有组件不存在异常,且大数据平台的配置参数不存在变更,则将数据仓库任务的第一子任务对应的最新的第一变更人确定为故障责任人并向第一变更人对应的第一变更终端发送告警信息。
[0010]在第一方面的一种可能的设计方式中,调用目标故障分类模型对工具日志和任务运行日志处理之前,该方法还包括:获取多组样本数据和多组样本数据一一对应的样本类别;样本数据为大数据处理系统出现数据仓库任务故障时的工具日志和任务运行日志;样本数据对应的样本类别为样本数据的故障类别;以样本数据为训练数据,样本类别作为监督信息,迭代训练初始故障分类模型,以得到目标故障分类模型。
[0011]基于本申请实施例提供的技术方案,可以先获取数据仓库任务(即ETL任务)执行过程中大数据工具设备的工作日志(即工具日志)以及大数据平台的工作日志(即任务运行日志)。由于工具日志和任务运行日志是可以表征数据仓库任务产生的故障具体是大数据处理系统中那一部分产生故障的。基于此,可以将工具日志和任务运行日志输入至目标故障分类模型中,得到数据仓库任务产生的故障的故障类别。故障类别则可以为工具侧故障或数仓侧故障或平台侧故障。即此时可以大致确定数据仓库任务产生的故障具体是大数据处理系统的哪一部分产生了故障使数据仓库任务无法正常执行。因为此时已经知晓故障时在大数据处理系统中的哪一部分产生的,所以最后便可以根据确定好的故障类别,准确的确定故障责任人并向故障责任人对应的故障责任终端发送告警信息,以使故障责任人对数据仓库任务出现的故障进行处理。可以看出,基于本申请提供的技术方案,可以自动确定数据仓库任务出现故障时的故障类别,进而准确确定出故障责任人。相比于现有技术而言,减少了故障责任人确定时的复杂流程,降低了故障责任人确定过程中耗费的沟通成本,提高了故障解决的效率。
[0012]第二方面,本申请提供一种故障处理装置,该装置包括:获取模块和处理模块。
[0013]其中,获取模块,用于出现数据仓库任务故障时,获取工具日志和任务运行日志;工具日志为执行数据仓库任务的大数据处理系统中的大数据工具设备的工作日志;任务运行日志为执行数据仓库任务的大数据处理系统中的大数据平台的工作日志;处理模块,用
于将获取模块获取的工具日志和任务运行日志输入目标故障分类模型中,得到故障类别;故障类别为以下任一项:工具侧故障、数仓侧故障、平台侧故障;处理模块还用于根据故障类别,确定故障责任人并向故障责任终端发送告警信息;故障责任终端为故障责任人对应的故障责任终端;告警信息用于指示故障责任人对数据仓库任务出现的故障进行处理。
[0014]第三方面,提供了一种电子设备,包括处理器、存储器、通信接口和通信总线。其中,处理器、存储器和通信接口通过通信总线完成相互间的通信。存储器用于存储计算机指令。当计算机指令在处理器上运行时,使得处理器执行如上述第一方面中任一项所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障处理方法,其特征在于,所述方法包括:在出现数据仓库任务故障时,获取工具日志和任务运行日志;所述工具日志为执行所述数据仓库任务的大数据处理系统中的大数据工具设备的工作日志;所述任务运行日志为执行所述数据仓库任务的大数据处理系统中的大数据平台的工作日志;调用目标故障分类模型对所述工具日志和所述任务运行日志处理,得到故障类别;所述故障类别为以下任一项:工具侧故障、数仓侧故障、平台侧故障;根据所述故障类别,确定故障责任人并向故障责任终端发送告警信息;所述故障责任终端为所述故障责任人对应的故障责任终端;所述告警信息用于指示所述故障责任人对数据仓库任务出现的故障进行处理。2.根据权利要求1所述的方法,其特征在于,所述根据所述故障类别,确定故障责任人并向故障责任终端发送告警信息,包括:若所述故障类别为工具侧故障,则根据大数据工具设备的责任表确定所述大数据工具设备对应的工具责任人以及所述工具责任人的通讯信息;所述责任表包括多个工具管理人员的通讯信息,以及所述工具管理人员与负责所述大数据工具设备的时间段的对应关系;将所述工具责任人确定为所述故障责任人,并利用所述工具责任人的通讯信息向所述工具责任终端发送所述告警信息。3.根据权利要求1所述的方法,其特征在于,所述根据所述故障类别,确定故障责任人并向故障责任终端发送告警信息,包括:若所述故障类别为数仓侧故障,获取所述数据仓库任务的第一子任务的第一变更记录;所述第一变更记录为第一子任务版本变更记录或第一子任务表变更记录;若根据所述第一变更记录确定所述第一子任务存在任务版本变更或任务表变更,则将所述第一子任务对应的最新的第一变更人确定为所述故障责任人并向所述第一变更人对应的第一变更终端发送所述告警信息。4.根据权利要求3所述的方法,其特征在于,所述获取所述数据仓库任务的第一子任务的第一变更记录之后,所述方法还包括:若根据所述第一变更记录确定所述第一子任务不存在任务版本变更或任务表变更,则获取第二子任务的第二变更记录;所述第二子任务为所述数据仓库任务中所述第一子任务的上游任务;所述第二变更记录为第二子任务版本变更记录或第二子任务表变更记录;若根据所述第二变更记录确定所述第二子任务存在任务版本变更或任务表变更,则将所述第二子任务的新版本变更对应的第二变更人确定为所述故障责任人并向所述第二变更人对应的第二变更终端发送所述告警信息;若根据所述第二变更记录确定所述第二子任务不存在任务版本变更或任务表变更,则将所述第一子任务对应的最新的第一变更人确定为所述故障责任人并向所述第一变更人对应的第一变更终端发送所述告警信息。5.根据权利要求1所述的方法,其特征在于,所述根据所述故障类别,确定故障责任人并向故障责任终端发送告警信息,包括:若所述故...

【专利技术属性】
技术研发人员:汪盼赵卫顾超张朝辉陆刚
申请(专利权)人:阿维塔科技重庆有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1