【技术实现步骤摘要】
大数据集群故障分析方法、装置、设备、介质及产品
[0001]本申请属于计算机信息
,尤其涉及一种大数据集群故障分析方法、装置、设备、介质及产品。
技术介绍
[0002]通常,大数据集群部署在多个服务器节点,每个服务器节点部承担不同的角色。集群包括多种组件,每个组件又包含多个服务,一般分布在不同的主机节点上。物理上的信号分散对大数据集群的运维带来了很大的困难。而且组件和服务间原本存在的非线性的关联又决定了不能单独地通过其中一两个组件服务去分析故障。
[0003]现有的对大数据集群进行故障分析时,是单独监控各个大数据组件自带的指标,通过可视化平台集中展示。通常可监控分析的内容是各大数据组件自带的指标状态应用程序接口列表。这种分析模式主要依赖组件自身提供的指标进行分析,并且故障的预测与定位依靠运维人员经验,故障分析的准确率低。
技术实现思路
[0004]本申请实施例提供一种大数据集群故障分析方法、装置、设备、介质及产品,能够提高故障分析的准确率。
[0005]第一方面,本申请实施例提供一种大数据集群故障分析方法,该方法包括:
[0006]获取由多个第一分析模型构成的第一有向无环图,第一有向无环图中的每个节点对应一个第一分析模型,每个第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析;
[0007]根据第一有向无环图确定多个第一分析模型的第一拓扑顺序;
[0008]获取多个第一分析模型生成的多个第一分析任务,每个第一分析模型生成一个第一分析任务 ...
【技术保护点】
【技术特征摘要】
1.一种大数据集群故障分析方法,其特征在于,所述方法包括:获取由多个第一分析模型构成的第一有向无环图,所述第一有向无环图中的每个节点对应一个第一分析模型,每个第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析;根据所述第一有向无环图确定所述多个第一分析模型的第一拓扑顺序;获取所述多个第一分析模型生成的多个第一分析任务,每个第一分析模型生成一个第一分析任务;根据所述第一拓扑顺序执行每个第一分析模型生成的第一分析任务,获得每个第一分析任务对应的第一分析结果;根据每个第一分析任务对应的第一分析结果,确定每个第一分析任务对应的分析对象的故障分析结果。2.根据权利要求1所述的方法,其特征在于,所述根据每个第一分析任务对应的第一分析结果,确定每个第一分析任务对应的分析对象的故障分析结果,包括:若第一任务对应的第一分析模型在所述第一有向无环图中没有入边,则所述第一任务对应的分析对象的故障分析结果确定为所述第一任务对应的第一分析结果,其中,所述第一任务为所述多个第一分析任务中的任意一个分析任务;若所述第一任务对应的第一分析模型在所述第一有向无环图中有入边,则所述第一任务对应的分析对象的故障分析结果根据所述第一任务对应的第一分析结果,以及第一模型对应的第一分析任务的第一分析结果确定,其中,所述第一有向无环图中所述第一任务对应的第一分析模型的入边为所述第一模型。3.根据权利要求1所述的方法,其特征在于,每个第一分析模型包括第一分析对象的标识,所述第一分析对象的指标判断规则及阈值;所述根据所述第一拓扑顺序执行每个第一分析模型生成的第一分析任务,获得每个第一分析任务对应的第一分析结果,包括:对于每一个第二任务,获取预设时间段内第二模型的第一分析对象的指标数据,所述第二任务为所述多个第一分析任务中的任意一个分析任务,所述第二模型为生成所述第二任务的模型;根据所述第二模型的指标判断规则和阈值,对所述指标数据进行判断,获得第一子分析结果,所述第一子分析结果用于指示所述指标数据的健康程度。4.根据权利要求3所述的方法,其特征在于,每个第一分析模型还包括所述第一分析对象的日志搜索规则及搜索关键词;根据所述第一拓扑顺序执行每个第一分析模型生成的第一分析任务,获得每个第一分析任务对应的第一分析结果,还包括:根据所述第二模型的第一分析对象的日志搜索规则及搜索关键词,对数据库中所述预设时间段内存储的日志进行搜索,获得第一日志数据,所述数据库用于存储分析对象的日志数据;对所述第一日志数据进行判断,获得第二子分析结果,所述第二子分析结果用于指示所述第一日志数据的健康度;将第一子分析结果和第二子分析结果中健康程度较低者作为第二任务对应的第一分
析结果。5.根据权利要求1所述的方法,其特征在于,在所述根据每个第一分析任务对应的第一分析结果,确定每个第一分析任务对应的分析对象的故障分析结果之后,所述方...
【专利技术属性】
技术研发人员:周世峰,陈含,戴妙荷,庄达,尚晶,江勇,陈卓,杨猛,徐海勇,刘虹,陶涛,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。