分布式系统故障判断与恢复方法、应用该方法的云操作系统以及计算平台技术方案

技术编号:42043311 阅读:26 留言:0更新日期:2024-07-16 23:26
本发明专利技术公开了分布式系统故障判断与恢复方法、应用该方法的云操作系统以及计算平台,涉及故障判断的技术领域,使用Corosync获取集群内若干组节点的状态数据信息,并结合分布式一致性算法,准确判断出故障节点并做出相应标记,此方法确保了系统能够实时监控节点状态,快速识别故障节点,避免因单个节点故障导致系统整体性能下降。通过检测分布式操作系统内相关资源运行数据信息及磁盘状态数据信息,构建健康影响集合,通过这些全面的数据收集和分析,可以更加精确地评估每个故障节点的健康状态,提供更准确的恢复难易程度预测。利用深度学习技术结合训练后的健康预测模型,对健康影响集合进行特征提取和分析计算。

【技术实现步骤摘要】

本专利技术涉及故障判断的,具体为分布式系统故障判断与恢复方法、应用该方法的云操作系统以及计算平台


技术介绍

1、在现代计算
,分布式系统作为一种重要的计算架构,通过将资源分散在多个节点上,以提高系统的可扩展性和容错性。具体到分布式操作系统的领域,这种系统需要处理资源的分配、管理和任务调度,以确保整个系统的高效运行和资源的合理使用。

2、在这种系统中,确保每个节点的正常运行是关键,因此,如何准确判断节点的故障状态并进行及时恢复,成为分布式系统中的重要研究方向。然而,传统的故障检测方法对节点的健康状态评估还不够准确,可能无法全面反映节点的健康状态,导致部分故障节点未能及时修复,影响系统的整体性能和可靠性,此外,面对预测故障节点的恢复难易程度问题也有待提升。


技术实现思路

1、针对现有技术的不足,本专利技术提供了分布式系统故障判断与恢复方法、应用该方法的云操作系统以及计算平台,解决了上述
技术介绍
中的问题。

2、为实现以上目的,本专利技术通过以下技术方案予以实现:分布式系统故障判断与恢本文档来自技高网...

【技术保护点】

1.分布式系统故障判断与恢复方法,其特征在于:包括以下步骤,

2.根据权利要求1所述的分布式系统故障判断与恢复方法,其特征在于:设定固定的时间间隔TzTz,集群中每个发送节点以固定的时间间隔TzTz向接收节点发送心跳信号,以表明自己是活跃的,集群中接收节点接收到发送节点的心跳信号后,记录收到心跳的时间戳;

3.根据权利要求2所述的分布式系统故障判断与恢复方法,其特征在于:当接收节点将初步判断发送节点存在故障风险时,接收节点将向集群发出投票请求,进行综合判断,具体内容如下:

4.根据权利要求3所述的分布式系统故障判断与恢复方法,其特征在于:根据标记的故障...

【技术特征摘要】

1.分布式系统故障判断与恢复方法,其特征在于:包括以下步骤,

2.根据权利要求1所述的分布式系统故障判断与恢复方法,其特征在于:设定固定的时间间隔tztz,集群中每个发送节点以固定的时间间隔tztz向接收节点发送心跳信号,以表明自己是活跃的,集群中接收节点接收到发送节点的心跳信号后,记录收到心跳的时间戳;

3.根据权利要求2所述的分布式系统故障判断与恢复方法,其特征在于:当接收节点将初步判断发送节点存在故障风险时,接收节点将向集群发出投票请求,进行综合判断,具体内容如下:

4.根据权利要求3所述的分布式系统故障判断与恢复方法,其特征在于:根据标记的故障节点获取故障节点数量gj,并根据集群内节点数量jdsz,计算获取故障占比gjs,同时检测分布式操作系统内相关资源运行数据信息及磁盘状态数据信息,以构建健康影响集合,所述健康影响集合包括相关资源运行数据信息及磁盘状态数据信息;

5.根据权利要求4所述的分布式系统故障判断与恢复方法,其特征在于:根据健康预...

【专利技术属性】
技术研发人员:邓练兵
申请(专利权)人:广东琴智科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1