一种数据库集群组的故障定位方法、存储介质和电子设备技术

技术编号:37123613 阅读:33 留言:0更新日期:2023-04-01 05:19
本发明专利技术的目的在于提供一种数据库集群组的故障定位方法,给出了更有效的自动化故障排查和定位的方式,即便存在大量的故障位置点时,也自动分析并精准发现故障严重的集群,提示工作人员优先处理问题严重的集群,实现集中、高效和低成本的运维保障能力,该方法包括,对一个数据库中全部指标的值进行获取后存储,对获取的指标的值按照预设的权重规则进行赋值,计算本数据库集群中的全部指标的值所对应的加权值的总和,将该总和作为该数据库集群的总体故障得分;计算全部数据库集群各自所对应的总体故障得分后进行排序,根据排序结果筛选出数据库集群组中的故障数据库集群或是高负载数据库集群,实现对故障的定位。实现对故障的定位。实现对故障的定位。

【技术实现步骤摘要】
一种数据库集群组的故障定位方法、存储介质和电子设备


[0001]本专利技术涉及数据库
,具体为一种数据库集群组的故障定位方法、存储介质和电子设备。

技术介绍

[0002]数据库集群是企业应对大量数据存储业务所构建的存储载体集合,其中多个数据库集群包含在一个资源池中,形成一个数据库集群组,该数据库集群组中的这些数据库集群共同完成内部数据业务。随着
ꢀ“
云转数改”战略的深入实施,国内某通讯公司已经完成“2+4+31+O+X”资源池的整体布局。在全国31个省已部署核心节点和数据中心,IDC数量超过550个以及2000+边缘数据中心节点,其中该公司内部数据库集群组数量高达4000套。
[0003]数据库集群伴随着业务规模扩大的同时,对应的故障查找和定位的工作量也越来越多。公有云面临大规模数据库集群运维的难题,资源池分布广泛,数量众多,单个资源池数据库集群数量庞大,需要提供数据库7*24小时运维服务。然而传统运维的排障方式是通过逐一排查每个集群的状态来确定故障发生的位置和原因。这种方式在大规模的数据库集群中,会导致排障的困难和问题呈量级增加,不利于快速定位故障。
[0004]如授申请号为CN200880125492.X的中国专利技术专利申请文件中公开的一种确立无线网络信号采集速率的方法及设备,该方法及设备允许使无线网络信号采集速率至少部分基于与所述便携式无线装置相关联的移动数据。
[0005]又如申请号为CN202011205439.X的中国专利技术专利申请文件中公开的一种分布式数据库故障预警方法、装置、设备和存储介质,分布式数据库故障预警方法,包括:接收统计模块发送的第一信号、第二信号,当识别出第一信号则判断分布式数据库集群中long_task占比超过第一阈值;接收预测模块发送的第三信号、第四信号,当识别出第三信号则判断分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值;当布式数据库集群中long_task占比超过第一阈值或者未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值,则输出预警信号。实现更加准确的对数据库未来可能发生的故障进行预警,从而避免当故障发生时恢复速度慢造成的损失虽然这些数据库故障定位模式能够寻找到问题故障点所在,但是当数据库集群组中包含有多个数据库集群,每一个数据库集群中包含有多个数据库,而每一个数据库中又包含有大量的数据时,就会导致故障定位的效率变低。此外,现有的这些用于对数据库中的问题进行定位寻找的方法无法对数据库中的故障进行评估排序,仍然需要人工对全部的故障问题进行分析,这就会造成故障解决时间被延长,不利于快速回复数据库的工作。
[0006]针对上述问题,本专利技术提供了一种数据库集群组的故障定位方法,给出了更有效的自动化故障排查和定位的方式,即便存在大量的故障位置点时,也自动分析并精准发现故障严重的集群,提示工作人员优先处理问题严重的集群,实现集中、高效和低成本的运维保障能力。

技术实现思路

[0007]本专利技术提供了一种数据库集群组的故障定位方法,给出了更有效的自动化故障排查和定位的方式,即便存在大量的故障位置点时,也自动分析并精准发现故障严重的集群,提示工作人员优先处理问题严重的集群,实现集中、高效和低成本的运维保障能力。
[0008]本专利技术的上述技术目的是通过以下技术方案得以实现的:一种数据库集群组的故障定位方法,应用于数据库集群组,所述数据库集群组中包括若干个数据库集群,所述数据库集群中包括若干个数据库,所述数据库包括多个指标;所述方法包括,对一个数据库中全部指标的值进行获取后存储,对获取的指标的值按照预设的权重规则进行赋值,计算本数据库集群中的全部指标的值所对应的加权值的总和,将该总和作为该数据库集群的总体故障得分;计算全部数据库集群各自所对应的总体故障得分后进行排序,根据排序结果筛选出数据库集群组中的故障数据库集群或是高负载数据库集群,实现对故障的定位。
[0009]作为对本专利技术的优选,在同一数据库集群内,多个数据库中的若干同名指标中,只选择其中数值最大的指标的值按照预设的权重规则赋值并参与总体故障得分的计算。
[0010]作为对本专利技术的优选,使用定时器按照预设的时间间隔对所需检测的指标进行获取,将所获得的指标数据存储在监控库中。
[0011]作为对本专利技术的优选,当获取的指标的值为空时,以预设次数重复进行获取步骤直至获取成功,若重复获取结束后该指标的值仍为空,则将该指标的值设置为预设值。
[0012]作为对本专利技术的优选,所述指标的种类包括状态值和活动数两种,分别根据指标状态值和指标活动数分配权重规则中的权重大小。
[0013]作为对本专利技术的优选,依据各数据库集群各自的总体故障得分的高低,对数据库集群由高到低进行排序。
[0014]作为对本专利技术的优选,设置指标的正常数值范围,当指标的值超出该数值范围即为异常,同时设置指标出现异常次数的高阈值和低阈值;获取在预设时间段内同一指标出现异常的次数,若次数超过设置的高阈值,则该指标的权重对应增加,若次数低于设置的低阈值,则该指标的权重对应减小。
[0015]一种存储介质,存储有实现上述任一项所述的数据库集群组的故障定位方法的程序。
[0016]一种电子设备,安装有一个或多个存储介质,使设备运转时能够实现所述数据库集群组的故障定位方法作为对本专利技术的优选,包括有显示屏,用于显示高总体故障得分的数据库集群的信息。
[0017]综上所述,本专利技术能够实现以下多项有益效果:1.本专利技术所给出的这种数据库集群组的故障定位方法根据预先制定的计算策略,对集群中数据库的各项指标进行量化计算排序,引入权重分配和得分排序的方法,对数值类和状态指标都赋予对应的数值,来表示该指标的大小和程度,并且求得集群的总得分并进行排序,从而给出运维的优先级,优先给出故障或高负载集群编号和位置,便于工作人员优先对故障集中的数据库集群进行处理。能够快速高效地定位需运维的集群,提高数据库业务的可用性,也有效地降低了运维的工作量通过这种方法。
[0018]2.本专利技术所给出的这种数据库集群组的故障定位方法在数据上,全面考虑到影响到集群状态的主要指标,从数据库实例指标、实例所在机器指标以及组件状态等三个维度去判断集群是否可用,以一种更为全面的数据采集指标来提高结果判断的准确性,并且通过多次轮流采集和默认值填补的方式,使得指标更具完备性。
[0019]3.本专利技术所给出的这种数据库集群组的故障定位方法相对现有的数据库故障人工定位方法,只能逐一检查集群的各项指标是否正常,能够通过给衡量集群性能和状态的指标制定权重分配策略,并且可以根据不同场景动态调整,给出集群的故障得分顺序。将故障得分高的集群优先显示在运维控制台的web界面上,方便运维人员快速定位故障,维护数据库集群的高可用性。
附图说明
[0020]图1为数据库集群组的故障定位方法的整体步骤划分流程示意图;图2为数据库集群组的故障定位方法应用于包含有多种指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据库集群组的故障定位方法,应用于数据库集群组,所述数据库集群组中包括若干个数据库集群,所述数据库集群中包括若干个数据库,所述数据库包括多个指标;其特征在于:所述方法包括,对一个数据库中全部指标的值进行获取后存储,对获取的指标的值按照预设的权重规则进行赋值,计算本数据库集群中的全部指标的值所对应的加权值的总和,将该总和作为该数据库集群的总体故障得分;计算全部数据库集群各自所对应的总体故障得分后进行排序,根据排序结果筛选出数据库集群组中的故障数据库集群或是高负载数据库集群,实现对故障的定位。2.根据权利要求1所述的数据库集群组的故障定位方法,其特征在于:在同一数据库集群内,多个数据库中的若干同名指标中,只选择其中数值最大的指标的值按照预设的权重规则赋值并参与总体故障得分的计算。3.根据权利要求2所述的数据库集群组的故障定位方法,其特征在于:使用定时器按照预设的时间间隔对所需检测的指标进行获取,将所获得的指标数据存储在监控库中。4.根据权利要求2所述的数据库集群组的故障定位方法,其特征在于:当获取的指标的值为空时,以预设次数重复进行获取步骤直至获取成功,若重复获取结束后该指标的值仍为空,则将...

【专利技术属性】
技术研发人员:谢黎颖叶小朋魏兴国
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1