一种节点故障的处理方法及装置制造方法及图纸

技术编号:39521750 阅读:14 留言:0更新日期:2023-11-25 19:00
本申请公开了一种节点故障的处理方法及装置,接收数据库集群中每个节点的心跳信息;若在预设时间内未接收到主节点的心跳信息,或接收到主节点的故障信息,对主节点进行故障修复;若在预设时间内未接收到子节点的心跳信息,或接收到子节点的故障信息和接收到其他节点的故障信息,对子节点和其他节点进行故障修复;当故障修复完毕后,向集群发送健康检查命令;若检查结果指示集群中的节点数量为预设节点数量,和在预设时间内接收到子节点和

【技术实现步骤摘要】
一种节点故障的处理方法及装置


[0001]本申请涉及大数据
,尤其涉及一种节点故障的处理方法及装置


技术介绍

[0002]Greenplum
数据库是一种高性能

可扩展的关系型数据库管理系统,专为大数据分析和处理而设计

[0003]在
Greenplum
数据库中,当集群中某个节点出现硬件故障时,由于木桶效应,整个集群的效率会出现下降,需要数据库运维人员将故障节点隔离出集群,然后由维护人员对主机进行检查并维修

由于
Greenplum
数据库的各个节点非无状态节点,其各个节点上都存有相应的应用数据和元数据信息,待节点修复完成后,运维人员需要将集群各节点上的数据同步到修复的节点后,数据库才能恢复正常使用

如果在故障节点修复的过程中,其备用节点同时发生故障,则节点上的数据可能会丢失或损坏

[0004]因此,如何在故障节点修复的过程中确保节点中数据的完整性,成为本领域亟需解决的问题


技术实现思路

[0005]本申请提供了一种节点故障的处理方法及装置,目的在于在故障节点修复的过程中确保节点中数据的完整性

[0006]为了实现上述目的,本申请提供了以下技术方案:
[0007]一种节点故障的处理方法,包括:
[0008]接收数据库集群中每个节点的心跳信息;所述节点包括主节点和子节点;
[0009]当在预设时间内未接收到所述主节点的心跳信息,或接收到所述主节点的故障信息时,确定所述主节点出现故障,并对所述主节点进行故障修复;
[0010]当在所述预设时间内未接收到子节点的心跳信息,或接收到所述子节点的故障信息时,检测是否在所述预设时间内接收到其他节点的故障信息;所述其他节点指示除所述子节点外的节点;
[0011]若在所述预设时间内接收到所述其他节点的故障信息,则对所述子节点和所述其他节点进行故障修复;
[0012]当所述主节点和
/
或所述子节点的故障修复完毕后,向所述集群发送健康检查命令,得到检查结果;
[0013]若所述检查结果指示所述集群中的节点数量为预设节点数量,以及在所述预设时间内接收到所述子节点和
/
或所述主节点的心跳信息时,则确定所述子节点和
/
或所述主节点的故障修复成功

[0014]可选的,所述对所述主节点进行故障修复,包括:
[0015]调用预设接口对主机进行重启操作;
[0016]当所述主机重启成功时,调用预设数据库命令对数据库服务进行重启操作;
[0017]当所述主机未启动成功时,对所述主节点进行虚机漂移操作后,调用所述预设数据库命令对所述数据库服务进行重启操作

[0018]可选的,所述对所述子节点和所述其他节点进行故障修复,包括:
[0019]当所述其他节点为子节点时,对数据库服务进行回滚操作;
[0020]当所述数据库服务回滚成功后,调用预设接口对所述子节点和所述其他节点进行销毁处理;
[0021]当所述子节点和所述其他节点销毁完成后,恢复所述数据库服务;
[0022]当所述数据库服务恢复成功后,调用所述预设接口生成与所述子节点和所述其他节点数量一致的新的子节点,并将所述新的子节点添加至所述集群中

[0023]可选的,所述对所述子节点和所述其他节点进行故障修复,包括:
[0024]当所述其他节点为主节点时,停止运行所述数据库集群中的所有节点,并对数据库服务进行回滚操作;
[0025]当所述数据库服务回滚成功后,调用预设接口对所述子节点进行销毁处理,以及对所述其他节点进行虚机漂移操作,或对所述其他节点进行重启

[0026]可选的,确定所述子节点和
/
或所述主节点的故障修复成功之后,还包括:
[0027]恢复数据库服务;
[0028]当所述数据库服务恢复成功后,生成与所述子节点数量一致的新的子节点,并将所述新的子节点添加至所述集群中

[0029]可选的,还包括:
[0030]当在预设时间内未接收到所述主节点的心跳信息,或接收到所述主节点的故障信息,或在所述预设时间内未接收到子节点的心跳信息,或接收到所述子节点的故障信息时,基于子节点和
/
或主节点,和所述子节点和
/
或所述主节点所属的集群生成告警信息,并将所述告警信息发送给用户

[0031]一种节点故障的处理装置,包括:
[0032]接收单元,用于接收数据库集群中每个节点的心跳信息;所述节点包括主节点和子节点;
[0033]第一确定单元,用于当在预设时间内未接收到所述主节点的心跳信息,或接收到所述主节点的故障信息时,确定所述主节点出现故障,并对所述主节点进行故障修复;
[0034]检测单元,用于当在所述预设时间内未接收到子节点的心跳信息,或接收到所述子节点的故障信息时,检测是否在所述预设时间内接收到其他节点的故障信息;所述其他节点指示除所述子节点外的节点;
[0035]故障修复单元,用于若在所述预设时间内接收到所述其他节点的故障信息,则对所述子节点和所述其他节点进行故障修复;
[0036]发送单元,用于当所述主节点和
/
或所述子节点的故障修复完毕后,向所述集群发送健康检查命令,得到检查结果;
[0037]第二确定单元,用于若所述检查结果指示所述集群中的节点数量为预设节点数量,以及在所述预设时间内接收到所述子节点和
/
或所述主节点的心跳信息时,则确定所述子节点和
/
或所述主节点的故障修复成功

[0038]可选的,所述第一确定单元具体用于:
[0039]调用预设接口对主机进行重启操作;
[0040]当所述主机重启成功时,调用预设数据库命令对数据库服务进行重启操作;
[0041]当所述主机未启动成功时,对所述主节点进行虚机漂移操作后,调用所述预设数据库命令对所述数据库服务进行重启操作

[0042]可选的,所述故障修复单元具体用于:
[0043]当所述其他节点为子节点时,对数据库服务进行回滚操作;
[0044]当所述数据库服务回滚成功后,调用预设接口对所述子节点和所述其他节点进行销毁处理;
[0045]当所述子节点和所述其他节点销毁完成后,恢复所述数据库服务;
[0046]当所述数据库服务恢复成功后,调用所述预设接口生成与所述子节点和所述其他节点数量一致的新的子节点,并将所述新的子节点添加至所述集群中

[0047]可选的,所述故障修复单元具体用于:
[0048]当所述其他节点为主节点时,停止运行所述数据库本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种节点故障的处理方法,其特征在于,包括:接收数据库集群中每个节点的心跳信息;所述节点包括主节点和子节点;当在预设时间内未接收到所述主节点的心跳信息,或接收到所述主节点的故障信息时,确定所述主节点出现故障,并对所述主节点进行故障修复;当在所述预设时间内未接收到子节点的心跳信息,或接收到所述子节点的故障信息时,检测是否在所述预设时间内接收到其他节点的故障信息;所述其他节点指示除所述子节点外的节点;若在所述预设时间内接收到所述其他节点的故障信息,则对所述子节点和所述其他节点进行故障修复;当所述主节点和
/
或所述子节点的故障修复完毕后,向所述集群发送健康检查命令,得到检查结果;若所述检查结果指示所述集群中的节点数量为预设节点数量,以及在所述预设时间内接收到所述子节点和
/
或所述主节点的心跳信息时,则确定所述子节点和
/
或所述主节点的故障修复成功
。2.
根据权利要求1所述的方法,其特征在于,所述对所述主节点进行故障修复,包括:调用预设接口对主机进行重启操作;当所述主机重启成功时,调用预设数据库命令对数据库服务进行重启操作;当所述主机未启动成功时,对所述主节点进行虚机漂移操作后,调用所述预设数据库命令对所述数据库服务进行重启操作
。3.
根据权利要求1所述的方法,其特征在于,所述对所述子节点和所述其他节点进行故障修复,包括:当所述其他节点为子节点时,对数据库服务进行回滚操作;当所述数据库服务回滚成功后,调用预设接口对所述子节点和所述其他节点进行销毁处理;当所述子节点和所述其他节点销毁完成后,恢复所述数据库服务;当所述数据库服务恢复成功后,调用所述预设接口生成与所述子节点和所述其他节点数量一致的新的子节点,并将所述新的子节点添加至所述集群中
。4.
根据权利要求1所述的方法,其特征在于,所述对所述子节点和所述其他节点进行故障修复,包括:当所述其他节点为主节点时,停止运行所述数据库集群中的所有节点,并对数据库服务进行回滚操作;当所述数据库服务回滚成功后,调用预设接口对所述子节点进行销毁处理,以及对所述其他节点进行虚机漂移操作,或对所述其他节点进行重启
。5.
根据权利要求1所述的方法,其特征在于,确定所述子节点和
/
或所述主节点的故障修复成功之后,还包括:恢复数据库服务;当所述数据库服务恢复成功后,生成与所述子节点数量一致的新的子节点,并将所述新的子节点添加至所述集群中
。6.
根据权利要求1所述的方法,其特征在于,还包括:
当在预设时间...

【专利技术属性】
技术研发人员:郑子遇郭玉章
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1