【技术实现步骤摘要】
本专利技术涉及到云计算平台系统故障预测技术,特别是涉及一种基于隐半马尔可夫模型的云计算平台实时系统故障预测方法。
技术介绍
在传统的云计算平台运维工作中,当系统出现故障时,运维人员往往需要花费一定的时间用来排查故障解决问题,这也导致了系统服务不稳定甚至是服务暂停。因此,提前对系统中可能发生的故障做出准确的预测,能够为系统运维人员预留出足够的故障反应时间,提前处理问题,从而避免系统故障的发生,对于提高系统服务的稳定性和运维工作的效率有着极大的意义。云计算系统往往是一个大型松耦合的分布式系统集群,不同节点上的不同组件模块相互协同工作,共同对外提供服务。在计算机系统中,日志机制发挥着重要的作用,每个模块通过日志将系统中的动作和操作记录下来,其中包含着丰富的信息和数据。传统的运维方式通过系统运维人员查看日志文件的方式来分析整个系统的运行情况和服务情况。受限于人的时间和精力,这种方式造成日志中许多有用的信息被忽略,从而导致了数据的大量浪费。在这样的背景下,当前在日志文件分析和数据挖掘方向的工作成为了研究热点,特别是对于大规模分布式系统下的故障预测的研究工作,具有巨大的实际 ...
【技术保护点】
一种基于隐半马尔可夫模型的云计算平台系统故障预测方法,其特征在于,包括以下步骤:根据日志数据提取错误事件;根据是否对系统故障造成影响,把错误事件划分为故障相关事件序列和故障无关事件序列;分别训练处故障相关事件序列的隐半马尔可夫模型和故障无关事件序列的隐半马尔可夫模型,计算实时提取出的事件序列基于故障相关事件序列的隐半马尔可夫模型的序列似然值和故障无关事件序列的隐半马尔可夫模型的序列似然值,利用贝叶斯分类器判断系统未来是否会发生故障。
【技术特征摘要】
1.一种基于隐半马尔可夫模型的云计算平台系统故障预测方法,其特征在于,包括以下步骤:根据日志数据提取错误事件;根据是否对系统故障造成影响,把错误事件划分为故障相关事件序列和故障无关事件序列;分别训练处故障相关事件序列的隐半马尔可夫模型和故障无关事件序列的隐半马尔可夫模型,计算实时提取出的事件序列基于故障相关事件序列的隐半马尔可夫模型的序列似然值和故障无关事件序列的隐半马尔可夫模型的序列似然值,利用贝叶斯分类器判断系统未来是否会发生故障。2.如权利要求1所述的基于隐半马尔可夫模型的云计算平台系统故障预测方法,其特征在于,所述根据日志数据提取错误事件步骤包括实时地对云计算平台生成的日志数据的进行处理,从非结构化的日志文件中将其中所包含的错误事件提取出来,将类似的错误事件记录合并,并对得到的错误事件赋予类型和时间信息。3.如权利要求1或2所述的基于隐半马尔可夫模型的云计算平台系统故障预测方法,其特征在于,所述根据日志数据提取错误文件,其具体步骤如下:从云平台中接收到日志数据之后,通过消息队列中间件,将每一条日志记录转化成为对应的消息;在消息队列中间件中,只留下“ERROR”级别的日志记录,同时只保留日志记录的文本信息和时间戳信息;基于编辑距离算法,将相似的错误事件记录合并分类,从而将所有的错误事件记录简化成为类型信息和时间戳的组合。4.如权利要求1所述的基于隐半马尔可夫模型的云计算平台系统故障预测方法,其特征在于,所述故障预测方法还包括将同一个错误事件的重复的 报告合并为同一事件,该步骤采用时间窗的方法,将所有到达时间小于阈值ε的事件视为重复事件,并将之合并。5.如权利要求1所述的基于隐半马尔可夫模型的云计算平台系统故障预测方法,其特征在于,所述根据是否对系统故障造成影响,把错误事件划分为故障相关事件序列和故障无关事件序列,具体步骤如下:根据时间窗口区间的设定,将同一窗口内所有错误事件组合成一个事件序列,并根据是否对系统故障造成影响,将事件序列划...
【专利技术属性】
技术研发人员:曹晖,寿黎但,张之宣,
申请(专利权)人:城云科技杭州有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。