【技术实现步骤摘要】
一种云环境下自动故障处理的方法及系统
本专利技术涉及云计算
,具体地说是一种云环境下自动故障处理的方法及系统。
技术介绍
云环境中,使用虚拟机的方式能够提供极大的便利,其优势在于,资源分配十分便利,用户能够根据实际的需要申请合适规格的虚拟机,而且可以实现资源的动态分配,在云上开发业务,能够避免传统的自建环境的诸多不便,且用户不需要考虑运维的问题,有效提高了开发效率和降低成本。在现有的技术中有众多高可用的方案,无论是基础的物理设施,如交换机,路由器,网卡,电源还是软件层面的设施,例如数据库,消息队列,代理服务,都有高可用的技术存在,但是即使有这些技术存在,也无法百分百保证环境出现故障了对于用户没有影响,需要有一种保证用户层环境不受影响的机制。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种云环境下自动故障处理的方法及系统,能够保证云环境中故障对于用户层面无感知,不影响用户业务。本专利技术解决其技术问题所采用的技术方案是:一种云环境下自动故障处理的方法,在云环境中 ...
【技术保护点】
1.一种云环境下自动故障处理的方法,其特征在于,在云环境中的用户层面上搭建虚拟环境,通过指标采集、指标获取及存储、异常检测、异常通知、异常处理、恢复检测和结果反馈,实现自动故障处理。/n
【技术特征摘要】
1.一种云环境下自动故障处理的方法,其特征在于,在云环境中的用户层面上搭建虚拟环境,通过指标采集、指标获取及存储、异常检测、异常通知、异常处理、恢复检测和结果反馈,实现自动故障处理。
2.根据权利要求1所述的一种云环境下自动故障处理的方法,其特征在于,所述指标采集,进行数据采集获取环境信息,包括瞬时值、累加值、方差值和绝对值;
所述指标获取及存储,周期性请求所述指标采集得到的指标信息,所述指标信息是一段时间内存储在时序数据库中;
所述异常检测,通过运算检查收集的指标是否存在异常;
所述异常通知,将异常信息导出,使用消息队列的方式将告警信息发送出去;
所述异常处理,订阅告警信息,捕获到异常消息后从异常消息中提取出有用的信息,根据类型做相应的处理;
所述恢复检测,通过长循环任务实现恢复的判断,在异常时可选择再次引发故障处理或者将消息反馈;
所述结果反馈,订阅异常处理的反馈消息。
3.根据权利要求1或2所述的一种云环境下自动故障处理的方法,其特征在于,该方法的具体实现步骤如下:
1)、进行指标数据采集;
2)、将采集的数据发送至数据存储端,数据存储端对信息进行处理后采样保存信息;
3)、通过对指定指标进行状态推断,发送告警消息到消息队列;
4)、不同的告警信息发送给不同的处理单元,或将部分信息直接告知运维人员;
5)、通过使用虚机处理技术,包括热迁移、冷迁移或/和疏散,对虚拟机运行故障进行处理;
6)、使用长循环的方式检测恢复异常处理的结果,并对失败的处理重新请求或者发送信息到反馈模块;
7)、所述反馈模块记录处理结果信息,并根据配置发送通知给处理人员;
8)、记录操作流程和处理结果。
4.根据权利要求3所述的一种云环境下自动故障处理的方法,其特征在于,所述指标数据采集使用接口化的编程方式,被动发起采集请求。
5.根据权利要求3所述的一种云环境下自动故障处理的方法,其特征在于,所述数据存储端的存储后端使用时序数据库,用中心化的模块进行统一的数据获取和存储。
6.根据权利要求3所述的一种云环境下自动故障处理的方法,其特征在于,通过调度机制处理故障,不同优先级的故障分级处理,使用异步的方式执行故障处理逻辑。
7...
【专利技术属性】
技术研发人员:陈玉林,蔡卫卫,宋伟,申嘉童,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。