云主机异常故障检测恢复系统、方法及云平台技术方案

技术编号:20680238 阅读:24 留言:0更新日期:2019-03-27 18:39
本发明专利技术公开了云主机异常故障检测恢复系统,包括采集组件,整理组件、内置动作库的数据库、学习组件、交互组件、执行组件及监控组件;采集组件采集状态数据,使用整理组件进行归类标记以形成故障检测用例集与正常用例集;学习组件提取故障检测用例集,训练得到最佳故障检测模型并发送至数据库;交互组件调用执行组件以执行动作库中的动作,通知并使用整理组件进行归类标记以形成故障恢复用例集;监控组件自数据库获取最佳故障检测模型,并与整理组件实时采集的状态数据进行对比,在对比成功后,调用故障检测用例集中的实例,以对云主机进行故障标定。本发明专利技术所揭示的云主机异常故障检测恢复系统实现了云主机故障的准确判断及故障恢复。

【技术实现步骤摘要】
云主机异常故障检测恢复系统、方法及云平台
本专利技术涉及云计算
,尤其涉及一种云主机异常故障检测恢复系统以及基于该云主机异常故障检测恢复系统的一种云主机异常故障检测恢复方法,以及一种云平台。
技术介绍
在基于IaaS平台的云主机场景中,当云主机(其本质上是一种虚拟机)处于超载或者资源紧张时会被物理机的安全机制强制关闭,从而影响到云主机向用户提供正常的响应及服务。通常的,如果云主机被强制关闭所导致的云主机内部操作系统的蓝屏现象及宕机现象是无法被用户所感知的。既使管理员远程登录后台并发现某个或者某些云主机出现故障时,则实际上出现故障的云主机向用户提供响应及服务的状态已经持续了相当长的一段时间了。为了监控云主机的状态,通常的解决方案是定时地向云主机的内部注入监控程序,以确定云主机是否存活;并在发现云主机不可访问时判定其为故障云主机,并执行重启操作。但是该现有技术只能检测出云主机不可访问,无法判断这种不可访问是因为“超载或者资源紧张”还是因为基于用户的关机行为所导致的。因此如果采用现有技术手段,会导致对云主机执行重启操作的盲目性,并增加了误判几率。有鉴于此,有必要对现有技术中的云主机发生故障时的检测恢复系统予以改进,以解决上述问题。
技术实现思路
本专利技术的目的在公开一种云主机异常故障检测系统、方法及云平台,以实现不仅仅能够检测到云主机是否发生故障,并判断出该故障是否为基于用户操作意愿所呈现的故障,有效防止对云主机所采取不必要或者错误的干预,提高用户体验;同时,实现云主机能够提供更高可用的业务服务支持,尽量减小云主机的操作系统和物理资源脱节对客户业务连续性的影响。为实现上述第一个专利技术目的,本专利技术公开了一种云主机异常故障检测恢复系统,包括:采集组件,整理组件、内置动作库的数据库、学习组件、交互组件、执行组件及监控组件;采集组件采集状态数据,使用整理组件进行归类标记以形成故障检测用例集与正常用例集;学习组件提取故障检测用例集,训练得到最佳故障检测模型并发送至数据库;交互组件调用执行组件以执行动作库中的动作,通知并使用整理组件进行归类标记以形成故障恢复用例集;监控组件自数据库获取最佳故障检测模型,并与整理组件实时采集的状态数据进行对比,在对比成功后,调用故障检测用例集中的实例,以对云主机进行故障标定。作为本专利技术的进一步改进,所述采集组件部署于控制节点或者计算节点中;所述数据库、学习组件、交互组件、执行组件及监控组件仅部署于控制节点中。作为本专利技术的进一步改进,所述状态数据由系统基础数据、系统服务日志及API返回结果共同描述;所述系统基础数据由CPU资源占用率、内存占用率、网卡流量中的至少一种构成;所述API返回结果由具体的云主机与计算节点中其他的云主机之间或者控制节点之间所形成的数据;所述系统服务日志为“/var/log/”目录中的日志文件。作为本专利技术的进一步改进,所述使用整理组件进行归类标记以形成故障检测用例集与正常用例集具体为:整理组件在设定时间段内的系统基础数据及系统服务日志进行转换标签处理,以形成第一类标签;将相同的设定时间段内的API返回结果进行转换标签处理,当API返回结果符合故障类型时转换为第一类特征码,当API返回结果符合非故障类型时转换为第二类特征码;将设定时间段与第一类标签及第一类特征码进行关联,以形成故障检测用例集中的一个用例,将设定时间段与第一类标签及第二类特征码进行关联,以形成正常用例集中的一个用例。作为本专利技术的进一步改进,所述学习组件训练得到最佳故障检测模型具体为:所述学习组件提取故障检测用例集并按照设定比例将故障检测用例集中的用例划分为故障检测训练集、故障检测验证集与故障检测测试集,并基于机器学习算法训练得到最佳故障检测模型;其中,故障检测训练集、故障检测验证集与故障检测测试集的划分比例为:8:1:1。作为本专利技术的进一步改进,所述机器学习算法为决策树算法、朴素贝叶斯算法、最小二乘法、支持向量机算法、聚类算法、主成分分析法或者独立成分分析法。作为本专利技术的进一步改进,所述交互组件接收自定义故障输入,以对数据库中留存的最佳故障检测模型进行更新;其中,所述最佳故障检测模型的数量仅为一个。作为本专利技术的进一步改进,所述故障检测用例集、正常用例集及故障恢复用例集均保存于数据库。作为本专利技术的进一步改进,使用整理组件进行归类标记以形成故障恢复用例集具体为:执行组件执行动作库中的动作,并通知整理组件执行所述动作及时间段,进行归类标记以形成第二类标签,并将所述动作在执行前后所对应的时间段从采集组件获取的API返回结果的变化转换为第三类特征码,并最终通过整理组件将第二类标签、时间段与第三类特征码进行关联,以形成故障恢复用例集中的一个实例。作为本专利技术的进一步改进,其特征在于,所述执行组件通过交互组件向数据库发起调用最佳故障检测模型的请求并发送至云主机,以对云主机进行故障恢复。作为本专利技术的进一步改进,所述最佳故障检测模型为更新后的最佳故障检测模型。作为本专利技术的进一步改进,所述自定义故障输入为向所述交互组件输入未被故障检测用例集所列入的新的故障用例,所述自定义故障输入由管理员和/或用户以本地操作或者异地操作的形式向交互组件进行输入,以对最佳故障检测模型中的用例进行更新,从而得到更新后的最佳故障检测模型。作为本专利技术的进一步改进,所述监控组件自数据库中获取当前的最佳故障检测模型,并将第一类标签及第一类特征码作为整体与整理组件实时采集到的云主机的第一类标签及第一类特征码进行同类型对比;当完全匹配时,将该云主机的状态判定为故障;当不完全匹配时,将该云主机的状态判定为正常。作为本专利技术的进一步改进,当第一类标签及第一类特征码作为整体与整理组件实时采集到的云主机的第一类标签及第一类特征码进行同类型对比且当不完全匹配时,将整理组件实时采集到的云主机的第一类标签及第一类特征码添加至正常用例集。同时,本申请还公开了一种云主机异常故障检测恢复方法,包括以下步骤:S1、通过采集组件采集状态数据,使用整理组件进行归类标记以形成故障检测用例集与正常用例集;S2、通过学习组件提取故障检测用例集,训练得到最佳故障检测模型并发送至数据库;S3、交互组件调用执行组件以执行动作库中的动作,通知并使用整理组件进行归类标记以形成故障恢复用例集;S4、通过监控组件自数据库获取最佳故障检测模型,并与整理组件实时采集的状态数据进行对比,在对比成功后,调用故障检测用例集中的实例,以对云主机进行故障标定;其中,所述采集组件部署于控制节点或者计算节点中;所述数据库、学习组件、交互组件、执行组件及监控组件仅部署于控制节点中。最后,本申请还揭示了一种云平台,包括:至少一个计算节点,所述计算节点中被配置出至少一个云主机,控制节点,以及如上述第1个至第8个专利技术创造所述的云主机异常故障检测恢复系统。与现有技术相比,本专利技术的有益效果是:(1)通过本专利技术所揭示的一种云主机异常故障检测系统,不仅实现了能够对计算节点中的云主机的故障进行准确地判断,防止将基于用户操作意愿所呈现的故障错误地判定为故障,从而极大地降低了对云主机的所采取的错误恢复及不必要的干预;(2)能够对故障通过学习组件进行自主学习,强化了最佳故障故障检测模型的容错性;(3)当云主机真正因超载或者资源紧张时会被物理本文档来自技高网...

【技术保护点】
1.云主机异常故障检测恢复系统,其特征在于,包括:采集组件(30),整理组件(40)、内置动作库(501)的数据库(50)、学习组件(60)、交互组件(70)、执行组件(80)及监控组件(90);采集组件(30)采集状态数据,使用整理组件(40)进行归类标记以形成故障检测用例集与正常用例集;学习组件(60)提取故障检测用例集,训练得到最佳故障检测模型并发送至数据库(50);交互组件(70)调用执行组件(80)以执行动作库(501)中的动作,通知并使用整理组件(40)进行归类标记以形成故障恢复用例集;监控组件(90)自数据库(50)获取最佳故障检测模型,并与整理组件(40)实时采集的状态数据进行对比,在对比成功后,调用故障检测用例集中的实例,以对云主机进行故障标定。

【技术特征摘要】
1.云主机异常故障检测恢复系统,其特征在于,包括:采集组件(30),整理组件(40)、内置动作库(501)的数据库(50)、学习组件(60)、交互组件(70)、执行组件(80)及监控组件(90);采集组件(30)采集状态数据,使用整理组件(40)进行归类标记以形成故障检测用例集与正常用例集;学习组件(60)提取故障检测用例集,训练得到最佳故障检测模型并发送至数据库(50);交互组件(70)调用执行组件(80)以执行动作库(501)中的动作,通知并使用整理组件(40)进行归类标记以形成故障恢复用例集;监控组件(90)自数据库(50)获取最佳故障检测模型,并与整理组件(40)实时采集的状态数据进行对比,在对比成功后,调用故障检测用例集中的实例,以对云主机进行故障标定。2.根据权利要求1所述的云主机异常故障检测恢复系统,其特征在于,所述采集组件(30)部署于控制节点(10)或者计算节点(20)中;所述数据库(50)、学习组件(60)、交互组件(70)、执行组件(80)及监控组件(90)仅部署于控制节点(10)中。3.根据权利要求1所述的云主机异常故障检测恢复系统,其特征在于,所述状态数据由系统基础数据、系统服务日志及API返回结果共同描述;所述系统基础数据由CPU资源占用率、内存占用率、网卡流量中的至少一种构成;所述API返回结果由具体的云主机与计算节点(20)中其他的云主机之间或者控制节点(10)之间所形成的数据;所述系统服务日志为“/var/log/”目录中的日志文件。4.根据权利要求3所述的云主机异常故障检测恢复系统,其特征在于,所述使用整理组件(40)进行归类标记以形成故障检测用例集与正常用例集具体为:整理组件(40)在设定时间段内的系统基础数据及系统服务日志进行转换标签处理,以形成第一类标签;将相同的设定时间段内的API返回结果进行转换标签处理,当API返回结果符合故障类型时转换为第一类特征码,当API返回结果符合非故障类型时转换为第二类特征码;将设定时间段与第一类标签及第一类特征码进行关联,以形成故障检测用例集中的一个用例,将设定时间段与第一类标签及第二类特征码进行关联,以形成正常用例集中的一个用例。5.根据权利要求3所述的云主机异常故障检测恢复系统,其特征在于,所述学习组件(60)训练得到最佳故障检测模型具体为:所述学习组件(60)提取故障检测用例集并按照设定比例将故障检测用例集中的用例划分为故障检测训练集、故障检测验证集与故障检测测试集,并基于机器学习算法训练得到最佳故障检测模型;其中,故障检测训练集、故障检测验证集与故障检测测试集的划分比例为:8:1:1。6.根据权利要求5所述的云主机异常故障检测恢复系统,其特征在于,所述机器学习算法为决策树算法、朴素贝叶斯算法、最小二乘法、支持向量机算法、聚类算法、主成分分析法或者独立成分分析法。7.根据权利要求1所述的云主机异常故障检测恢复系统,其特征在于,所述交互组件(70)接收自定义故障输入,以对数据库(50)中留存的最佳故障检测模型进行更新;其中,所述最佳故障检测模型的数量仅为一个。8.根据权利要求1所述的云主机异常故障检测恢复系统,其特征在于,所述故障检测用例集、正常用例集及故障...

【专利技术属性】
技术研发人员:许广彬张建峰谭瑞忠
申请(专利权)人:无锡华云数据技术服务有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1