大数据集群故障分析方法、装置、设备、介质及产品制造方法及图纸

技术编号:37121296 阅读:27 留言:0更新日期:2023-04-01 05:16
本申请公开了一种大数据集群故障分析方法、装置、设备、介质及产品,其中,大数据集群故障分析方法包括:获取由多个第一分析模型构成的第一有向无环图;根据第一有向无环图确定多个第一分析模型的第一拓扑顺序;获取多个第一分析模型生成的多个第一分析任务,每个第一分析模型生成一个第一分析任务;根据第一拓扑顺序执行每个第一分析模型生成的第一分析任务,获得每个第一分析任务对应的第一分析结果;根据每个第一分析任务对应的第一分析结果,确定每个第一分析任务对应的分析对象的故障分析结果。根据本申请实施例,能够精准的对故障进行预测与定位,提高故障分析的准确率。提高故障分析的准确率。提高故障分析的准确率。

【技术实现步骤摘要】
大数据集群故障分析方法、装置、设备、介质及产品


[0001]本申请属于计算机信息
,尤其涉及一种大数据集群故障分析方法、装置、设备、介质及产品。

技术介绍

[0002]通常,大数据集群部署在多个服务器节点,每个服务器节点部承担不同的角色。集群包括多种组件,每个组件又包含多个服务,一般分布在不同的主机节点上。物理上的信号分散对大数据集群的运维带来了很大的困难。而且组件和服务间原本存在的非线性的关联又决定了不能单独地通过其中一两个组件服务去分析故障。
[0003]现有的对大数据集群进行故障分析时,是单独监控各个大数据组件自带的指标,通过可视化平台集中展示。通常可监控分析的内容是各大数据组件自带的指标状态应用程序接口列表。这种分析模式主要依赖组件自身提供的指标进行分析,并且故障的预测与定位依靠运维人员经验,故障分析的准确率低。

技术实现思路

[0004]本申请实施例提供一种大数据集群故障分析方法、装置、设备、介质及产品,能够提高故障分析的准确率。
[0005]第一方面,本申请实施例提供一种大数据集群故障分析方法,该方法包括:
[0006]获取由多个第一分析模型构成的第一有向无环图,第一有向无环图中的每个节点对应一个第一分析模型,每个第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析;
[0007]根据第一有向无环图确定多个第一分析模型的第一拓扑顺序;
[0008]获取多个第一分析模型生成的多个第一分析任务,每个第一分析模型生成一个第一分析任务
[0009]根据第一拓扑顺序执行每个第一分析模型生成的第一分析任务,获得每个第一分析任务对应的第一分析结果;
[0010]根据每个第一分析任务对应的第一分析结果,确定每个第一分析任务对应的分析对象的故障分析结果。
[0011]第二方面,本申请实施例提供了一种大数据集群故障分析装置,装置包括:
[0012]第一获取模块,用于获取由多个第一分析模型构成的第一有向无环图,第一有向无环图中的每个节点对应一个第一分析模型,每个第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析;
[0013]第一确定模块,用于根据第一有向无环图确定多个第一分析模型的第一拓扑顺序;
[0014]第二获取模块,用于获取多个第一分析模型生成的多个第一分析任务,每个第一分析模型生成一个第一分析任务;
[0015]执行模块,用于根据第一拓扑顺序执行每个第一分析模型生成的第一分析任务,获得每个第一分析任务对应的第一分析结果;
[0016]第二确定模块,用于根据每个第一分析任务对应的第一分析结果,确定每个第一分析任务对应的分析对象的故障分析结果。
[0017]第三方面,本申请实施例提供了一种电子设备,设备包括:处理器以及存储有计算机程序指令的存储器;
[0018]所述处理器执行所述计算机程序指令时实现如第一方面所述的方法。
[0019]第四方面,本申请实施例提供了一种计算机存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如第一方面所述的方法。
[0020]第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面所述的方法。
[0021]本申请实施例的大数据集群故障分析方法、装置、设备、介质及产品,通过获取多个第一分析模型构成的第一有向无环图,其中第一有向无环图中的每个节点都对应一个第一分析模型,多个第一分析模型生成多个第一分析任务,第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析,将指标数据和日志数据同时获取并存储,避免了数据的多路传输,缩短了数据传输链路,方便将数据统一管理,根据第一有向无环图确定多个第一分析模型的第一拓扑顺序,根据确定的第一拓扑顺序执行多个第一分析任务,可以获得第一分析任务对应的第一分析结果,根据第一分析结果来确定第一分析任务对应的分析对象的故障分析结果,这样,通过多个分析模型以及集群拓扑的组合,可以较为全面的对分析对象状态进行系统的分析,进而精准的对故障进行预测与定位,提高故障分析的效率。
附图说明
[0022]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本申请一种实施例提供的大数据集群故障分析方法的流程示意图;
[0024]图2是本申请一种实施例提供的大数据集群故障分析方法中集群拓扑感知的结构示意图;
[0025]图3是本申请一种实施例提供的大数据集群故障分析方法中指标数据与日志数据分析的结构示意图;
[0026]图4是本申请一种实施例提供的大数据集群故障分析方法中任务执行调用链的结构示意图;
[0027]图5是本申请一种实施例提供的大数据集群故障分析方法中数据传输入库的结构示意图;
[0028]图6是本申请一种实施例提供的大数据集群故障分析装置的结构示意图;
[0029]图7是本申请一种实施例提供的电子设备的结构示意图。
具体实施方式
[0030]下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
[0031]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0032]为了解决现有技术问题,本申请实施例提供了一种大数据集群故障分析方法、装置、设备、介质及产品。下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的大数据集群故障分析方法进行详细地说明。
[0033]图1是本申请一种实施例提供的大数据集群故障分析方法的流程示意图。如图1所示,本申请实施例提供的大数据集群故障分析方法可以包括步骤S110

S150,其中:
[0034]S110、获取由多个第一分析模型构成的第一有向无环本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据集群故障分析方法,其特征在于,所述方法包括:获取由多个第一分析模型构成的第一有向无环图,所述第一有向无环图中的每个节点对应一个第一分析模型,每个第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析;根据所述第一有向无环图确定所述多个第一分析模型的第一拓扑顺序;获取所述多个第一分析模型生成的多个第一分析任务,每个第一分析模型生成一个第一分析任务;根据所述第一拓扑顺序执行每个第一分析模型生成的第一分析任务,获得每个第一分析任务对应的第一分析结果;根据每个第一分析任务对应的第一分析结果,确定每个第一分析任务对应的分析对象的故障分析结果。2.根据权利要求1所述的方法,其特征在于,所述根据每个第一分析任务对应的第一分析结果,确定每个第一分析任务对应的分析对象的故障分析结果,包括:若第一任务对应的第一分析模型在所述第一有向无环图中没有入边,则所述第一任务对应的分析对象的故障分析结果确定为所述第一任务对应的第一分析结果,其中,所述第一任务为所述多个第一分析任务中的任意一个分析任务;若所述第一任务对应的第一分析模型在所述第一有向无环图中有入边,则所述第一任务对应的分析对象的故障分析结果根据所述第一任务对应的第一分析结果,以及第一模型对应的第一分析任务的第一分析结果确定,其中,所述第一有向无环图中所述第一任务对应的第一分析模型的入边为所述第一模型。3.根据权利要求1所述的方法,其特征在于,每个第一分析模型包括第一分析对象的标识,所述第一分析对象的指标判断规则及阈值;所述根据所述第一拓扑顺序执行每个第一分析模型生成的第一分析任务,获得每个第一分析任务对应的第一分析结果,包括:对于每一个第二任务,获取预设时间段内第二模型的第一分析对象的指标数据,所述第二任务为所述多个第一分析任务中的任意一个分析任务,所述第二模型为生成所述第二任务的模型;根据所述第二模型的指标判断规则和阈值,对所述指标数据进行判断,获得第一子分析结果,所述第一子分析结果用于指示所述指标数据的健康程度。4.根据权利要求3所述的方法,其特征在于,每个第一分析模型还包括所述第一分析对象的日志搜索规则及搜索关键词;根据所述第一拓扑顺序执行每个第一分析模型生成的第一分析任务,获得每个第一分析任务对应的第一分析结果,还包括:根据所述第二模型的第一分析对象的日志搜索规则及搜索关键词,对数据库中所述预设时间段内存储的日志进行搜索,获得第一日志数据,所述数据库用于存储分析对象的日志数据;对所述第一日志数据进行判断,获得第二子分析结果,所述第二子分析结果用于指示所述第一日志数据的健康度;将第一子分析结果和第二子分析结果中健康程度较低者作为第二任务对应的第一分
析结果。5.根据权利要求1所述的方法,其特征在于,在所述根据每个第一分析任务对应的第一分析结果,确定每个第一分析任务对应的分析对象的故障分析结果之后,所述方...

【专利技术属性】
技术研发人员:周世峰陈含戴妙荷庄达尚晶江勇陈卓杨猛徐海勇刘虹陶涛
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1