实时日志控制系统及控制方法、云计算系统及服务器技术方案

技术编号:17970334 阅读:102 留言:0更新日期:2018-05-16 11:16
本发明专利技术属于云计算技术领域,公开了一种实时日志控制系统及控制方法、云计算系统及服务器,通过对于日志记录事件的分析,将错误信息进行分类、过滤、聚合操作,提取成为序列,训练故障模型并计算序列属于故障序列的概率和非故障序列的概率,使用贝叶斯分类理论得出结果,做出预测。本发明专利技术通过对于日志记录事件的分析,将所有的错误信息进行分类、过滤、聚合等操作,提取成为序列,训练故障模型并计算该序列属于故障序列的概率和非故障序列的概率,使用贝叶斯分类理论得出结果,做出预测,比起大量的规则匹配来说提高了判断速度;故障预测研究对于减轻网络管理和维护的负担,减少网络故障造成的损失具有重要意义。

【技术实现步骤摘要】
实时日志控制系统及控制方法、云计算系统及服务器
本专利技术属于云计算
,尤其涉及一种实时日志控制系统及控制方法、云计算系统及服务器。
技术介绍
随着计算机技术的高速发展,云计算成为最重要的计算机领域之一,云计算服务深入到每个人的生活和工作当中。能够通过对实时数据的计算,基于机器学习算法对于云计算系统中可能发生的故障进行提前预测,预留出故障响应时间,同时还支持弹性地平扩展集群的处理能力,以适应不断增长的数据量和用户需求。对海量日志数据进行实时计算处理,从数据中挖掘分析出系统的状态、故障预测方面具有良好的发展方向和应用前景。综上所述,现有技术存在的问题是:原有的故障预测模型中,一方面,状态持续时间分布大多默认为指数型分布,而实际中故障的状态概率变化并不满足指数型;另一方面,在故障状态检测值概率做了离散化处理,这对大数据环境进行实验分析会有意料之外的影响,故本内容采用状态持续时间分布和状态观察值概率分布钧进行连续化分布即假定威布尔分布,采用改进的预测模型可提高诊断和预测的概率值。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种实时日志控制系统及控制方法、云计算系统及服务器。本专利技术是这样实现的,一种实时日志控制方法,所述实时日志控制方法通过对于日志记录事件的分析,将错误信息进行分类、过滤、聚合操作,提取成为序列,训练故障模型并计算序列属于故障序列的概率和非故障序列的概率,使用贝叶斯分类理论得出结果,做出预测。进一步,所述实时日志控制方法具体包括:步骤一,收集分布式系统中各个节点上的日志文件数据,通过增量检查将新产生日志数据实时地发送给收集端;步骤二,删除在某一时间段内相同位置报告的相同类型事件,删除冗余事件,通过设置时间阈值表示用于执行事件过滤的时间窗口;通过移除某一时间段内由多个不同位置报告的相似事件,删除日志中的冗余事件,将数据流保存到时序数据库中;使用相似性Sim(D1,D2)来判断:其中D1,D2表示两个序列,W1K,W2K表示D1、D2序列的向量项,相似度即两个向量夹角的余弦值来表示,Sim(D1,D2)越大,表示两者相似度越高;步骤三,在每条数据存储到数据表时,利用SQL语句按照时间戳、进程号、记录级别、进程模块、分隔符、记录信息分割记录;步骤四,利用SQL语句将处理过的标准格式化数据进行持久化存储;步骤五,提取日志故障序列;步骤六,聚类标准根据序列的似然值作为度量值来计算,采用层次聚类算法实现故障相关事件分组,其中:S=[si]表示一个长为L状态序列,为在状态si(k)在初始状态概率向量π=[πi]下的观测值的概率矩阵;步骤七,采用改进的HSMM和贝叶斯网络BayesNet相结合,对实时日志数据做出故障预测;标准HSMM可由状态之间转化概率矩阵G(t)=[gij(t)]、状态si(k)在初始状态概率向量π=[πi]下的观测值的概率矩阵B=bi(k),定义为将状态持续时间概率分布连续化;将状态持续时间的分布作为连续分布来处理,并且假设其服从威布尔分布来描述状态持续时间概率分布,状态的状态持续时间概率分布fi(l)为:fi(l)=αβ(αl)β-1e-(αl)β;式中:α、β分别为威布尔分布的尺度参数和形状参数;将状态监测值概率分布连续化;同样设定其服从威布尔分布,状态检测值概率分布函数ξi(θ)为:其中αi、βi为各状态阶段的威布尔分布的参数;改进的HSMM模型可描述为步骤八,故障和非故障模型进行训练,参数和目标是评估,给定一个观察序列O=[o1,o2,...,ol]是否为故障相关序列;计算分类模型的序列似然值,随后被分类为无故障或故障贝叶斯决策理论;步骤九,故障结果预判:将一个序列标记成为故障相关事件序列,系统发出故障预测;其中表示错误的将故障相关序列判断成为故障无关序列的代价,P(F)表示故障的概率,表示对序列似然值取对数。进一步,所述提取日志故障序列具体包括:第一步,提取错误事件序列:利用SQL语句,根据日志等级将ERROR级别的记录过提取出来,保留时间戳和文本消息信息;第二步,合并相似错误事件:对事件序列利用Levenshtein编辑距离算法,将相似度较大的错误事件合并;最小编辑距离包含子最小编辑距离;其中d[i-1,j]+1代表目标日志插入一个字母,d[i,j-1]-1代表匹配日志删除一个字母;然后xi=yj时,不需要修改,所以和上一步d[i-1,j-1]+1代价相同,否则+1,d[i,j]表示以上三者中最小的一项;第三步,错误事件分类:经过上一步将错误事件合并后,根据错误事件的文本信息中的关键字将相似的错误事件进行归类,并赋值ID,保存在数据库中;第四步,提取序列:按照时间顺序,提取在故障发生前一段时间内的事件,设定为故障相关事件序列,为故障前置时间,当前故障事件为相关故障事件;非故障相关事件序列则是在系统未发生故障的时间区间内的事件序列。本专利技术的另一目的在于提供一种所述实时日志控制方法的实时日志控制系统,所述实时日志控制系统包括:日志信息处理模块、日志故障分析模块。进一步,所述日志故障分析模块包括:收集日志信息单元,用于收集分布式系统中各个节点上的日志文件数据,日志收集功能应该允许自定义所要监听的日志文件,通过增量检查的方法,将新产生日志数据实时地发送给收集端;日志信息过滤单元,用于进行数据的去冗余和过滤;日志信息标准格式化单元,用于处理过的日志信息进行数据标准格式化;日志存储单元,用于将处理过的标准格式化数据进行持久化存储。进一步,所述日志故障分析模块包括:提取日志事件序列单元;故障相关事件聚类单元,用于利用事件提前训练出一个小的隐半马尔可夫模型,求序列似然值;故障预测单元,使用隐半马尔可夫模型和贝叶斯分贝理论,判定序列是否为故障相关序列;故障结果判断输出单元:当判定为故障相关序列时,系统发出故障警告流,输出状态故障预警。所述提取日志事件序列单元进一步包括:提取错误事件记录单元,根据日志等级将ERROR级别的记录过提取出来,保留时间戳、进程模块和文本消息信息;合并相似错误事件单元,将错误事件序列利用Levenshtein编辑距离算法,将相似度较大的错误事件合并;错误事件分类单元,对事件序列采用Levenshtein编辑距离算法,将相似的错误事件进行归类,并赋值ID;提取故障相关序列单元,按照时间先后顺序,提取故障前一段时间内的事件,设定为故障前置事件。本专利技术的另一目的在于提供一种利用所述实时日志控制方法的云计算系统。现今故障预测研究工作主要有三类方法,包括基于日志频率的故障检测模型,基于消息频率的故障检测模型和基于状态转移的故障检测模型。本专利技术在系统运行时间内实时收集日志信息并进行聚类处理,通过分析事件日志使用机器学习的算法和模型,实现对系统未来可能发生的故障的预测,在系统运行过程中对系统故障进行提前排查和定位,用于提高系统运维效率和预防紧急故障事件。本专利技术通过对于日志记录事件的分析,将所有的错误信息进行分类、过滤、聚合等操作,提取成为序列,训练故障模型并计算该序列属于故障序列的概率和非故障序列的概率,使用贝叶斯分类理论得出结果,做出预测。该方法的有效判断标准主要由三个参数来决定,即准确率、召回率以及F-measure参数,准确率反应的是所有预测中正确的比率,召本文档来自技高网...
实时日志控制系统及控制方法、云计算系统及服务器

【技术保护点】
一种实时日志控制方法,其特征在于,所述实时日志控制方法通过对于日志记录事件的分析,将错误信息进行分类、过滤、聚合操作,提取成为序列,训练故障模型并计算序列属于故障序列的概率和非故障序列的概率,使用贝叶斯分类理论得出结果,做出预测。

【技术特征摘要】
1.一种实时日志控制方法,其特征在于,所述实时日志控制方法通过对于日志记录事件的分析,将错误信息进行分类、过滤、聚合操作,提取成为序列,训练故障模型并计算序列属于故障序列的概率和非故障序列的概率,使用贝叶斯分类理论得出结果,做出预测。2.如权利要求1所述的实时日志控制方法,其特征在于,所述实时日志控制方法具体包括:步骤一,收集分布式系统中各个节点上的日志文件数据,通过增量检查将新产生日志数据实时地发送给收集端;步骤二,删除在某一时间段内相同位置报告的相同类型事件,删除冗余事件,通过设置时间阈值表示用于执行事件过滤的时间窗口;通过移除某一时间段内由多个不同位置报告的相似事件,删除日志中的冗余事件,将数据流保存到时序数据库中;使用相似性Sim(D1,D2)来判断:其中D1,D2表示两个序列,W1K,W2K表示D1、D2序列的向量项,相似度即两个向量夹角的余弦值来表示,Sim(D1,D2)越大,表示两者相似度越高;步骤三,在每条数据存储到数据表时,利用SQL语句按照时间戳、进程号、记录级别、进程模块、分隔符、记录信息分割记录;步骤四,利用SQL语句将处理过的标准格式化数据进行持久化存储;步骤五,提取日志故障序列;步骤六,聚类标准根据序列的似然值作为度量值来计算,采用层次聚类算法实现故障相关事件分组,其中:S=[si]表示一个长为L状态序列,为在状态si(k)在初始状态概率向量π=[πi]下的观测值的概率矩阵;步骤七,采用隐半马尔可夫模型HSMM和贝叶斯网络BayesNet相结合,对实时日志数据做出故障预测;标准HSMM可由状态之间转化概率矩阵G(t)=[gij(t)]、状态si(k)在初始状态概率向量π=[πi]下的观测值的概率矩阵B=bi(k),定义为λ=(π,G(t),B);将状态持续时间概率分布连续化;将状态持续时间的分布作为连续分布来处理,并且假设其服从威布尔分布来描述状态持续时间概率分布,状态的状态持续时间概率分布fi(l)为:fi(l)=αβ(αl)β-1e-(αl)β;式中:α、β分别为威布尔分布的尺度参数和形状参数;将状态监测值概率分布连续化;同样设定其服从威布尔分布,状态检测值概率分布函数ξi(θ)为:其中αi、βi为各状态阶段的威布尔分布的参数;改进的HSMM模型可描述为步骤八,故障和非故障模型进行训练,参数和目标是评估,给定一个观察序列O=[o1,o2,...,ol]是否为故障相关序列;计算分类模型的序列似然值...

【专利技术属性】
技术研发人员:裴庆祺赵伟伟王磊
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1