一种云平台故障检测及运维系统、方法、设备及存储介质技术方案

技术编号:42579428 阅读:29 留言:0更新日期:2024-08-29 00:42
本申请公开了一种云平台故障检测及运维系统、方法、设备及存储介质,涉及云计算领域,包括:告警信息推送模块,用于配置告警推送,以便将告警信息推送至计算节点评估模块;计算节点评估模块,用于对告警信息进行筛选,确定目标告警,基于目标告警及预设评估项对计算节点进行评估,获取评估结果;故障恢复模块,用于基于评估结果确定对虚拟机执行的故障恢复操作,监测云平台集群的剩余资源,若剩余资源大于或等于目标阈值,则基于故障恢复操作向云平台集群发送故障恢复指令,监控云平台集群基于故障恢复指令的动作执行结果,以便基于动作执行结果进行相应的操作,完成对云平台的故障检测及运维。本申请实现了无人值守准确高效的故障恢复。

【技术实现步骤摘要】

本专利技术涉及云计算领域,特别涉及一种云平台故障检测及运维系统、方法、设备及存储介质


技术介绍

1、随着云计算的发展,政府、企业上云越来越广泛,基于云计算技术构建的云平台,集成了软件和服务,提供了可靠、灵活、可扩展的方式来构建、部署和管理服务,云平台可以屏蔽底层物理机异构设备的复杂性和差异性等,支持统一集中供应计算、存储、网络等资源。

2、随着企业将更多业务迁移到云环境,云平台的稳定性和可靠性变得至关重要。一旦发生故障,可能会导致业务中断、数据丢失、用户体验下降等问题,及时发现故障并进行故障恢复,可保证云平台服务的稳定性和可用性,提升用户体验,同时及时预警潜在的更大问题,可减少业务中断的风险。

3、虚拟机的本质是通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统,在物理服务器中创建虚拟机时,需要将实体物理服务器的内存、cpu(central processing unit,中央处理器)等进行虚拟化,然后将其分配给虚拟机。因此,当物理服务器发生异常故障或集群关键指标异常时,会影响客户业务,导致正在运行的用本文档来自技高网...

【技术保护点】

1.一种云平台故障检测及运维系统,其特征在于,包括:

2.根据权利要求1所述的云平台故障检测及运维系统,其特征在于,还包括:

3.根据权利要求1所述的云平台故障检测及运维系统,其特征在于,所述目标告警包括节点Ready状态异常、节点对应的nova服务异常、物理服务器BMC事件、节点控制网、业务网、存储网异常、节点bond网卡异常以及节点异常宕机中任意一种或几种的组合。

4.根据权利要求1所述的云平台故障检测及运维系统,其特征在于,所述预设评估项包括是否存在虚拟机、nova-compute状态、文件打开数是否超过预设阈值、网络连通性检测、光纤通道链路连接...

【技术特征摘要】

1.一种云平台故障检测及运维系统,其特征在于,包括:

2.根据权利要求1所述的云平台故障检测及运维系统,其特征在于,还包括:

3.根据权利要求1所述的云平台故障检测及运维系统,其特征在于,所述目标告警包括节点ready状态异常、节点对应的nova服务异常、物理服务器bmc事件、节点控制网、业务网、存储网异常、节点bond网卡异常以及节点异常宕机中任意一种或几种的组合。

4.根据权利要求1所述的云平台故障检测及运维系统,其特征在于,所述预设评估项包括是否存在虚拟机、nova-compute状态、文件打开数是否超过预设阈值、网络连通性检测、光纤通道链路连接是否正常、逻辑卷管理服务是否正常、预设时间内是否发生过重启、智能平台管理接口内是否有代码纠错故障以及文件系统是否只读。

...

【专利技术属性】
技术研发人员:李敏赵磊
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1