【技术实现步骤摘要】
集群脑裂自动修复方法、系统、装置及存储介质
[0001]本申请涉及集群脑裂自动修复方法、系统、装置及存储介质,属于MySQL Galera集群脑裂自动修复
技术介绍
[0002]随着用于AI平台及深度学习任务的数据业务量的增加,数据存储的压力也与日俱增。尤其是由于平台集群的高可用趋势愈发显著,人们对于mysql的可靠性要求也越来越高。MySQL Galera集群的出现使这一问题得到了解决,在我们的AI平台高可用部署时,mysql在三个主节点上,它们关系对等,multi
‑
master架构做到数据可以多节点同时写入,当节点在其中一个节点出现问题时,可以采用其替代节点代替其提供服务,从而保证集群数据一致。
[0003]但是由于平台服务器故障、意外断电、网络抖动、服务异常等情况下,MySQL Galera集群可能出现脑裂情况,导致集群数据不一致;并且在这种情况下,存在无法自动恢复正常的问题。出现这种问题,AI平台底层服务会连接数据库异常,业务数据无法读写入数据库,整体影响较大。
[000 ...
【技术保护点】
【技术特征摘要】
1.一种集群脑裂自动修复方法,其特征在于,包括:当检测到MySQL Galera集群出现的脑裂问题在预设时间段长度内未恢复时,获取MySQL Galera集群出现脑裂问题阶段对应的容器日志和故障信息;根据所述容器日志、故障信息,基于预先训练好的LogME评估模型,从预设模型库中选取目标修复模型;如果所述目标修复模型满足预设要求,则采用目标修复模型对MySQL Galera集群出现的脑裂问题进行修复。2.根据权利要求1所述的方法,其特征在于,还包括:根据所述容器日志和故障信息生成目标数据集;所述根据所述容器日志、故障信息,基于预先训练好的LogME评估模型,从预设故障修复模型库中选取目标修复方案,包括:将所述目标数据集带入存储的每个故障恢复模型,得到每个故障恢复模型对应的恢复结果文件;基于预先训练好的LogME评估模型,对所述恢复结果文件进行评估,选取最佳恢复结果文件对应的目标修复模型。3.根据权利要求1或2所述的方法,其特征在于,所述如果所述目标修复模型满足预设要求,则采用目标修复模型对MySQL Galera集群出现的脑裂问题进行修复,包括:针对目标数据集选取预设数量的第一特征点,构成第一特征点集,基于最佳恢复结果对应的故障修复模型,确定第一特定点集对应的第二特征点集;采用方差计算模型,确定第一特征点集与第二特征点集的方差;当第一特征点集的方差与第二特征点集的方差满足预设方差阈值时,则采用该目标修复模型对脑裂问题进行修复。4.根据权利要求3所述的方法,其特征在于,所述方差计算模型,为:其中,μ
i
为从目标数据集中的第i个特征点,X
i
为目标数据集中的第i个特征点对应的目标修复模型得出的特征点,n为从目标数据集中选取的特征点的数量,S2为特征点方差。5.根据权利要求2所述的方法,其特征在于,所述方法,还包括:如果所述目标修复模型不满足预设要求,则上报目标数据集,接收针对该目标数据集的修复方案;根据接收到的针对目...
【专利技术属性】
技术研发人员:刘晓健,苏宝珠,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。