【技术实现步骤摘要】
云主机异常故障检测恢复系统、方法及云平台
本专利技术涉及云计算
,尤其涉及一种云主机异常故障检测恢复系统以及基于该云主机异常故障检测恢复系统的一种云主机异常故障检测恢复方法,以及一种云平台。
技术介绍
在基于IaaS平台的云主机场景中,当云主机(其本质上是一种虚拟机)处于超载或者资源紧张时会被物理机的安全机制强制关闭,从而影响到云主机向用户提供正常的响应及服务。通常的,如果云主机被强制关闭所导致的云主机内部操作系统的蓝屏现象及宕机现象是无法被用户所感知的。既使管理员远程登录后台并发现某个或者某些云主机出现故障时,则实际上出现故障的云主机向用户提供响应及服务的状态已经持续了相当长的一段时间了。为了监控云主机的状态,通常的解决方案是定时地向云主机的内部注入监控程序,以确定云主机是否存活;并在发现云主机不可访问时判定其为故障云主机,并执行重启操作。但是该现有技术只能检测出云主机不可访问,无法判断这种不可访问是因为“超载或者资源紧张”还是因为基于用户的关机行为所导致的。因此如果采用现有技术手段,会导致对云主机执行重启操作的盲目性,并增加了误判几率。有鉴于此,有必要对现有技术中的云主机发生故障时的检测恢复系统予以改进,以解决上述问题。
技术实现思路
本专利技术的目的在公开一种云主机异常故障检测系统、方法及云平台,以实现不仅仅能够检测到云主机是否发生故障,并判断出该故障是否为基于用户操作意愿所呈现的故障,有效防止对云主机所采取不必要或者错误的干预,提高用户体验;同时,实现云主机能够提供更高可用的业务服务支持,尽量减小云主机的操作系统和物理资源脱节对客户业务连续性的影 ...
【技术保护点】
1.云主机异常故障检测恢复系统,其特征在于,包括:采集组件(30),整理组件(40)、内置动作库(501)的数据库(50)、学习组件(60)、交互组件(70)、执行组件(80)及监控组件(90);采集组件(30)采集状态数据,使用整理组件(40)进行归类标记以形成故障检测用例集与正常用例集;学习组件(60)提取故障检测用例集,训练得到最佳故障检测模型并发送至数据库(50);交互组件(70)调用执行组件(80)以执行动作库(501)中的动作,通知并使用整理组件(40)进行归类标记以形成故障恢复用例集;监控组件(90)自数据库(50)获取最佳故障检测模型,并与整理组件(40)实时采集的状态数据进行对比,在对比成功后,调用故障检测用例集中的实例,以对云主机进行故障标定。
【技术特征摘要】
1.云主机异常故障检测恢复系统,其特征在于,包括:采集组件(30),整理组件(40)、内置动作库(501)的数据库(50)、学习组件(60)、交互组件(70)、执行组件(80)及监控组件(90);采集组件(30)采集状态数据,使用整理组件(40)进行归类标记以形成故障检测用例集与正常用例集;学习组件(60)提取故障检测用例集,训练得到最佳故障检测模型并发送至数据库(50);交互组件(70)调用执行组件(80)以执行动作库(501)中的动作,通知并使用整理组件(40)进行归类标记以形成故障恢复用例集;监控组件(90)自数据库(50)获取最佳故障检测模型,并与整理组件(40)实时采集的状态数据进行对比,在对比成功后,调用故障检测用例集中的实例,以对云主机进行故障标定。2.根据权利要求1所述的云主机异常故障检测恢复系统,其特征在于,所述采集组件(30)部署于控制节点(10)或者计算节点(20)中;所述数据库(50)、学习组件(60)、交互组件(70)、执行组件(80)及监控组件(90)仅部署于控制节点(10)中。3.根据权利要求1所述的云主机异常故障检测恢复系统,其特征在于,所述状态数据由系统基础数据、系统服务日志及API返回结果共同描述;所述系统基础数据由CPU资源占用率、内存占用率、网卡流量中的至少一种构成;所述API返回结果由具体的云主机与计算节点(20)中其他的云主机之间或者控制节点(10)之间所形成的数据;所述系统服务日志为“/var/log/”目录中的日志文件。4.根据权利要求3所述的云主机异常故障检测恢复系统,其特征在于,所述使用整理组件(40)进行归类标记以形成故障检测用例集与正常用例集具体为:整理组件(40)在设定时间段内的系统基础数据及系统服务日志进行转换标签处理,以形成第一类标签;将相同的设定时间段内的API返回结果进行转换标签处理,当API返回结果符合故障类型时转换为第一类特征码,当API返回结果符合非故障类型时转换为第二类特征码;将设定时间段与第一类标签及第一类特征码进行关联,以形成故障检测用例集中的一个用例,将设定时间段与第一类标签及第二类特征码进行关联,以形成正常用例集中的一个用例。5.根据权利要求3所述的云主机异常故障检测恢复系统,其特征在于,所述学习组件(60)训练得到最佳故障检测模型具体为:所述学习组件(60)提取故障检测用例集并按照设定比例将故障检测用例集中的用例划分为故障检测训练集、故障检测验证集与故障检测测试集,并基于机器学习算法训练得到最佳故障检测模型;其中,故障检测训练集、故障检测验证集与故障检测测试集的划分比例为:8:1:1。6.根据权利要求5所述的云主机异常故障检测恢复系统,其特征在于,所述机器学习算法为决策树算法、朴素贝叶斯算法、最小二乘法、支持向量机算法、聚类算法、主成分分析法或者独立成分分析法。7.根据权利要求1所述的云主机异常故障检测恢复系统,其特征在于,所述交互组件(70)接收自定义故障输入,以对数据库(50)中留存的最佳故障检测模型进行更新;其中,所述最佳故障检测模型的数量仅为一个。8.根据权利要求1所述的云主机异常故障检测恢复系统,其特征在于,所述故障检测用例集、正常用例集及故障...
【专利技术属性】
技术研发人员:许广彬,张建峰,谭瑞忠,
申请(专利权)人:无锡华云数据技术服务有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。