云平台异常事件的监控及自动处理的方法和框架技术

技术编号:16042386 阅读:43 留言:0更新日期:2017-08-20 00:44
本发明专利技术通过提供一种云平台异常事件的监控及自动处理的方法和框架,从而降低异常事件的遗漏率,大幅提升事件处理准确率,有效地提升云平台的运维效率。本发明专利技术方法通过规则引擎定义的规则判断采集的数据中是否记录有异常事件;当判定所述采集的数据中记录有异常事件时,工作负载服务调用流程控制引擎,通过所述流程控制引擎根据知识库的数据产生操作指令;所述工作负载服务根据所述操作指令调用云平台自动化运维接口,自动完成异常事件的处理工作;处理过程和结果被记录到历史数据库并定期同步更新知识库,形成闭环,完善优化自动操作指令的生成。

【技术实现步骤摘要】
云平台异常事件的监控及自动处理的方法和框架
本专利技术涉及云计算、云监控及自动化运维领域,特别涉及一种云平台异常事件的监控及自动处理的方法和框架。
技术介绍
由于云平台架构的复杂性和工作负载的不可预测性,以及云平台上资源的动态性、多样性和资源规模巨大给云平台监控带来了一定的困难。另外面对云环境下各种各样的资源,包括物理硬件、主机、存储、网络、计算、虚拟系统等,在传统的监控及异常事件的处理中,通常采用监控告警系统通知运维人员,运维人员手动处理;对于同类问题出现多次,运维人员主动总结处理方法并通过编写脚本的方式以实现半自动的处理。久而久之,系统上分布着数量不少的来自不同运维人员编写的脚本,对于它们的维护又带来另外的管理问题。而且这种方式仍存在着异常事件遗漏率高及处理效率低等问题。因此如何形成一种高度抽象的监控兼自动处理异常事件的框架,以及对于云平台种类繁多的异常事件,如何防止异常事件被遗漏,避免引发更严重的系统问题,如何解决运维人员在面对数量巨大异常事件时人工处理任务繁重低效等等一系列问题,亟待我们去解决。
技术实现思路
本专利技术通过提供一种云平台异常事件的监控及自动处理方法和框架,以实现对云平台不同层次的应用服务、中间件和基础设施资源的监控及异常事件的自动处理,从而防止异常事件被遗漏,避免引发更严重的系统问题,并完善优化自动操作指令的生成,进一步解决了运维人员在面对数量巨大异常事件时人工处理任务繁重低效的问题。为解决上述技术问题,本专利技术一方面提供一种云平台监控异常事件自动处理方法,包括:通过规则引擎定义的规则判断采集的数据中是否记录有异常事件;当判定所述采集的数据记录有异常事件时,工作负载服务调用流程控制引擎,所述流程控制引擎根据知识库的数据产生操作指令;工作负载服务根据所述操作指令调用云平台自动化运维接口,通过所述自动化运维接口处理所述异常事件。可选地,在通过规则引擎定义的规则判断采集的数据中是否记录有异常事件之前,所述方法还包括对所有待监控对象进行数据采集。可选地,所述待监控对象包括物理机、虚拟机、存储设备和网络设备中的至少之一。可选地,通过所述自动化运维接口处理所述异常事件,具体包括“通过API调用、远程命令执行的方式完成所述操作指令的执行。优选地,所述自动化运维接口包括物理机管理接口、虚拟机管理接口、进程管理接口中至少之一。可选地,所述对所有待监控对象进行数据采集包括:通过主动拉取和被动接收两种方式采集所述数据;优选地,对于云平台的事件源支持脚本方式扩展;因此可以将尽可能多异常事件采集进来。可选地,所述通过规则引擎定义的规则判断所述采集的数据中是否记录有异常事件包括:获取通过所述规则引擎定义的至少一种规则与各个规则对应的阈值条件,确定所述数据特征所属的规则,检测所述采集的数据特征是否满足所述规则对应的阈值条件;当检测出所述采集的数据特征满足所述规则对应的阈值条件时,则判定所述采集的数据中记录有所述异常事件;当检测出所述采集的数据特征未满足所述规则对应的阈值条件时,则判定所述采集的数据中未记录所述异常事件。可选地,在通过规则引擎定义的规则判断所述采集的数据中是否记录有异常事件之后,所述方法还包括:当判定所述采集的数据中记录有异常事件时,通过所述规则引擎将记录所述异常事件的数据发送到异常消息队列。可选地,所述规则引擎还可以将记录所述异常事件的数据转换成框架组件所能处理的告警信息。可选地,在所述工作负载服务调用流程控制引擎之前,还包括:工作负载服务从消息队列中获取所述异常事件。可选地,所述方法还包括所述工作负载服务将所述异常事件处理过程和结果记录到历史数据库,所述历史数据库中的操作记录会定期同步更新到知识库中。可选地,所述方法还包括工作负载服务将所述异常事件的处理过程和结果反馈回消息队列中。可选地,通过所述自动化运维接口处理所述异常事件之后,还包括:通过API服务查看跟踪异常事件的处理过程和历史处理记录。可选地,在对所有待监控对象进行数据采集后,所述方法还包括将采集的数据转存到消息队列。可选地,所述消息队列可以根据处理要求划分,包括但不限于事件源队列,处理结果反馈队列,操作过程记录队列。所述消息队列主要用于满足事件源数据、处理结果反馈数据和操作过程记录数据的临时存储;以及通过API服务可以从消息队列中获取数据,供用户查看中间处理的情况。本专利技术另一方面提供一种云平台监控异常事件自动处理框架,包括:规则引擎模块、控制服务模块;其中所述控制服务模块包括工作负载服务和流程控制引擎;所述规则引擎模块,用于通过定义的规则判断所述采集的数据中是否记录有异常事件;所述控制服务模块,用于当判定所述采集的数据中记录有异常事件时,工作负载服务调用流程控制引擎,通过所述流程控制引擎根据知识库的数据产生操作指令;所述工作负载服务根据所述操作指令调用云平台自动化运维接口,通过所述自动化运维接口处理所述异常事件。可选地,所述规则引擎模块,用于:获取通过所述规则引擎模块定义的至少一种规则与各个规则对应的阈值条件,确定所述数据特征所属的规则,检测所述采集的数据特征是否满足所述阈值条件;当检测出所述采集的数据特征满足所述规则对应的阈值条件时,则判定所述采集的数据中记录有所述异常事件;当检测出所述采集的数据特征未满足所述规则对应的阈值条件时,则判定所述采集的数据中未记录所述异常事件。可选地,所述规则引擎模块,还用于:当判定所述采集的数据中记录有异常事件时,通过所述规则引擎模块将记录所述异常事件的数据发送到消息队列。可选地,所述规则引擎模块,还用于将记录所述异常事件的数据转换成框架组件所能处理的告警信息;可选地,所述控制服务模块,还用于在所述工作负载服务调用流程控制引擎之前,通过所述工作负载服务从消息队列中获取记录所述异常事件的数据。可选地,所述框架还包括数据采集模块,用于对所有待监控对象进行数据采集;可选地,所述待监控对象包括物理机、虚拟机、存储设备和网络设备中的至少之一。可选地,所述对所有待监控对象进行数据采集包括:所述数据采集支持通过主动拉取和被动接收两种方式采集所述数据;优选地,对于云平台的事件源支持脚本方式扩展;因此可以将尽可能多异常事件采集进来。可选地,所述数据采集模块还用于将采集的数据转存到消息队列。可选地,所述框架还包括数据存储模块,所述数据存储模块,通过工作负载服务将所述异常事件的处理过程和结果记录到历史数据库,并将所述历史数据库中的操作记录定期同步更新到知识库中。可选地,所述框架还包括数据临时存储模块,通过工作负载服务将所述异常事件的处理过程和结果反馈回消息队列中。可选地,所述框架还包括API服务模块,所述API服务模块用于查看所述异常事件的处理过程和历史处理记录。优选地,所述框架支持各组件之间同步或异步的双向通讯。本专利技术所涉及的知识库的数据,是通过运维经验积累所形成的,若知识库中不存在异常事件的处理记录,则转成手工操作解决。本专利技术所述的框架组件包括工作负载服务、规则引擎、流程控制引擎、API服务、历史数据库、知识库、消息队列和数据采集服务至少之一。本专利技术除了对某些异常事件采集时可能会对云平台做修改外,例如对于没有获取接口的事件源,要在云平台中各采集节点部署数据采集程序;其他框架组件都属于上层组件,不对云平台或被监控本文档来自技高网...
云平台异常事件的监控及自动处理的方法和框架

【技术保护点】
一种云平台异常事件的监控及自动处理的方法,其特征在于,包括:通过规则引擎定义的规则判断采集的数据中是否记录有异常事件;当判定所述采集的数据中记录有异常事件时,工作负载服务调用流程控制引擎,通过所述流程控制引擎根据知识库的数据产生操作指令;所述工作负载服务根据所述操作指令调用云平台自动化运维接口,通过所述自动化运维接口处理所述异常事件。

【技术特征摘要】
1.一种云平台异常事件的监控及自动处理的方法,其特征在于,包括:通过规则引擎定义的规则判断采集的数据中是否记录有异常事件;当判定所述采集的数据中记录有异常事件时,工作负载服务调用流程控制引擎,通过所述流程控制引擎根据知识库的数据产生操作指令;所述工作负载服务根据所述操作指令调用云平台自动化运维接口,通过所述自动化运维接口处理所述异常事件。2.根据权利要求1所述的方法,其特征在于,所述通过规则引擎定义的规则判断所述采集的数据中是否记录有异常事件包括:获取通过所述规则引擎定义的至少一种规则与各个规则对应的阈值条件,确定所述数据特征所属的规则,检测所述采集的数据特征是否满足所述规则对应的阈值条件;当检测出所述采集的数据特征满足所述规则对应的阈值条件时,则判定所述采集的数据中记录有所述异常事件;当检测出所述采集的数据特征未满足所述规则对应的阈值条件时,则判定所述采集的数据中未记录所述异常事件。3.根据权利要求2所述的方法,其特征在于,在通过规则引擎定义的规则判断所述采集的数据中是否记录有异常事件之后,所述方法还包括:当判定所述采集的数据中记录有异常事件时,通过所述规则引擎将记录所述异常事件的数据发送到消息队列。4.根据权利要求3所述的方法,其特征在于,在所述工作负载服务调用流程控制引擎之前,还包括:所述工作负载服务从所述消息队列中获取所述异常事件。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述工作负载服务将所述异常事件的处理过程和结果记录到历史数据库,并将所述历史数据库中的操作记录定期同步更新到知识库中。6.根据权利要求1所述的方法,其特征在于,所述方法还包括工作负载服务将处理过程和结果反馈回消息队列中。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:API服务查看所述异常事件的处理过程和历史处理记录。8.一种云平台异常事件的监控及自动处理的框架,其特征在于,所述框架包括规...

【专利技术属性】
技术研发人员:汪深海
申请(专利权)人:深圳市神云科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1