一种基于日志分析和在线仿真的云服务故障检测系统及方法技术方案

技术编号:34365657 阅读:17 留言:0更新日期:2022-07-31 08:42
本发明专利技术公开了一种基于日志分析和在线仿真的云服务故障检测系统及方法。解决现有技术中故障检测需要对历史故障的日志或注入各种故障产生日志进行学习、挖掘,存在步骤负载、使用不便,难以广泛使用的问题。系统包括服务端集群,包括多个服务端;客户端;仿真客户端,包括日志处理单元,进行日志异常检测,收敛故障范围到服务端故障子集;仿真客户端对故障子集对应的服务端进行业务仿真测试,获取仿真测试故障集,与分类集进行匹配,根据匹配成功的分类集定位故障发生位置。本发明专利技术通过将日志分析与仿真测试相结合,避免了日志分析的故障检测方法的繁琐机器学习过程,通过日志分析缩小仿真测试的测试范围,大大提高了故障测试效率。大大提高了故障测试效率。大大提高了故障测试效率。

A cloud service fault detection system and method based on log analysis and online simulation

【技术实现步骤摘要】
一种基于日志分析和在线仿真的云服务故障检测系统及方法


[0001]本专利技术涉及通信网络故障分析
,尤其是涉及一种基于日志分析和在线仿真的云服务故障检测系统及方法。

技术介绍

[0002]云计算已经广泛应用在生产、服务等多个方面,诸如通信、互联网等大量应用服务已经在计算云中提供。由于计算云及其提供的服务系统的大规模和并行性,使系统变得极为复杂性,运行中产生故障会相互影响,使故障定位非常困难。
[0003]针对异常检测的日志分析方法是计算云及其提供的服务运行故障分析的重要方法。现有针对异常检测的日志分析方法包括两大步骤:第一步,解析日志提取特征:收集发生故障时的日志,通过对所收集故障日志进行数据挖掘得到故障判断规则;第二步,对运行产生的日志进行进行异常检测,即与第一步得到的规则进行匹配,匹配成功的则检测到规则对应的故障。
[0004]由于上述第一步骤需要历史故障的日志或者注入各种故障产生日志,而对于实际生产中出现的故障千变万花,很难在事先就收集多种故障关联的日志供规则挖掘,致使现有的日志分析方法很难广泛使用。现有基于日志解析和特征提取的异常检测日志分析方法存在步骤复杂、在实际生产中使用不便等缺点。

技术实现思路

[0005]本专利技术主要是解决现有技术中故障检测需要对历史故障的日志或注入各种故障产生日志进行学习、挖掘,存在步骤复杂、使用不便,难以广泛使用的问题,提供了一种基于日志分析和在线仿真的云服务故障检测系统及方法。
[0006]本专利技术的上述技术问题主要是通过下述技术方案得以解决的:一种基于日志分析和在线仿真的云服务故障检测方法,包括,
[0007]S1.获取服务端的运行日志,根据不同划分条件生成多种分类集;
[0008]S2.以时间窗口为单元收集日志,集成各时间窗口内异常日志;
[0009]S3.根据检测到的异常日志收敛故障范围获取服务端故障子集;
[0010]S4.由仿真客户端对故障子集对应的服务端进行业务仿真测试,获取仿真测试故障集,仿真测试故障集与分类集进行匹配,根据匹配成功的分类集定位故障发生位置。
[0011]本专利技术通过将日志分析与仿真测试相结合,避免了日志分析的故障检测方法的繁琐机器学习过程,通过日志分析缩小仿真测试的测试范围,大大提高了故障测试效率。
[0012]作为一种优选方案,所述的根据不同划分条件生成多种分类集,包括:
[0013]将服务端分布在同一宿主机、同一机架或同一网络交换机为条件进行划分,获得若干子集,子集共同构成宿主机分类集、机架分类集或网络交换机分类集。
[0014]作为一种优选方案,步骤S2具体包括:
[0015]确定时间窗口;
[0016]收集时间窗口内的日志,将日志与日志模板进行匹配,提取日志信息,并将日志信息转换成统一日志格式,统一日志格式包括主机名、日志模板类型、日志级别信息;统一日志格式具体包括时间戳、主机名、日志模板类型、日志级别信息;每种服务端由于其总在程序的有限个地方输出日志,因此只能产生有限种格式的日志,每种格式对应一种日志模板,对接收到的日志与模板日志进行匹配,匹配后提取日志信息。
[0017]将同一服务端的同一日志模板的日志级别为错误的日志集成在一起作为一条异常日志,获得异常日志集。由于实际在线运营的系统中,发生故障一般能得到及时处理,因此,时间窗口内的日志对应同一故障,把同一服务端同一日志模板日志级别为错误的日志集成在一起作为一条异常日志。
[0018]作为一种优选方案,步骤S3具体包括:
[0019]记录每个时间窗口中包含异常日志的服务端,获取所有时间窗口包括异常日志的服务端数据;
[0020]将服务端数据转换为布尔型事务数据,采用频繁项集挖掘算法对布尔型事务数据进行挖掘计算,输出最大频繁项集;
[0021]将最大频繁项集中所有服务端生成服务端故障子集。本方案中根据服务器端出现频繁度对故障范围进行缩小,以更精确定位故障位置。
[0022]作为一种优选方案,步骤S3具体包括:
[0023]以每个日志模板为一个维度,以每个日志模板集成后的异常日志次数为坐标值,生成多维向量空间;
[0024]每个服务端对应的异常日志对应多维向量空间的一个点,获取服务端对应向量;
[0025]计算所有服务端对应向量在多维向量空间中的质心向量;
[0026]计算每个服务端对应向量到质心的距离;
[0027]设定阈值,将服务端对应向量到质心的距离小于阈值的服务端生成服务端故障子集。
[0028]作为一种优选方案,所述的由仿真客户端对故障子集对应的服务端进行业务仿真测试,获取仿真测试故障集,包括:
[0029]将服务端故障子集发送给仿真客户端;
[0030]仿真客户端向服务端故障子集中所有服务端发送业务请求,接受服务端返回的业务响应信息,根据业务响应信息判断仿真测试是否成功;
[0031]计算每个服务端仿真测试失败次数与测试总数比值,并与设定的阈值比较,比值大于阈值则判断测试结果为服务端故障,获取大于阈值的服务端生成仿真测试故障集。
[0032]作为一种优选方案,所述的定位故障发生位置,包括:
[0033]将仿真测试集与多种分类集中子集进行比较,判断仿真测试集与子集是否相同或仿真测试集是否全部包含于子集,若是比较成功,若否比较失败;
[0034]比较成功的所有子集中选取包括元素最少的子集,将该子集按分类集划分条件所对应的设备定位为故障发生位置。
[0035]一种基于日志分析和在线仿真的云服务故障检测系统,包括:
[0036]服务端集群,包括部署在云中的多个服务端,每个服务端用于接收客户端的业务请求和返回业务响应,服务端生成日志并通过IP网络与其他节点进行通信;
[0037]客户端,用于向服务端发送业务请求,接收服务端返回的业务响应,客户端通过IP网络与其他节点进行通信;
[0038]仿真客户端,包括日志处理单元,日志处理单元接收服务端日志,以时间窗口为单元收集日志,集成各时间窗口内异常日志,根据检测到的异常日志收敛故障范围获取服务端故障子集,仿真客户端对故障子集对应的服务端进行业务仿真测试,获取仿真测试故障集,仿真测试故障集与分类集进行匹配,根据匹配成功的分类集定位故障发生位置。
[0039]作为一种优选方案,日志处理单元确定时间窗口,收集时间窗口内的日志,将日志与日志模板进行匹配,提取日志信息,并将日志信息转换成统一日志格式,统一日志格式包括主机名、日志模板类型、日志级别信息,将同一服务端的同一日志模板的日志级别为错误的日志集成在一起作为一条异常日志,获得异常日志集;
[0040]日志处理单元记录每个时间窗口中包含异常日志的服务端,获取所有时间窗口包括异常日志的服务端数据;将服务端数据转换为布尔型事务数据,采用频繁项集挖掘算法对布尔型事务数据进行挖掘计算,输出最大频繁项集;将最大频繁项集中所有服务端生成服务端本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于日志分析和在线仿真的云服务故障检测方法,其特征在于:包括,S1.获取服务端的运行日志,根据不同划分条件生成多种分类集;S2.以时间窗口为单元收集日志,集成各时间窗口内异常日志;S3.根据检测到的异常日志收敛故障范围获取服务端故障子集;S4.由仿真客户端对故障子集对应的服务端进行业务仿真测试,获取仿真测试故障集,仿真测试故障集与分类集进行匹配,根据匹配成功的分类集定位故障发生位置。2.根据权利要求1所述的一种基于日志分析和在线仿真的云服务故障检测方法,其特征是所述的根据不同划分条件生成多种分类集,包括:将服务端分布在同一宿主机、同一机架或同一网络交换机为条件进行划分,获得若干子集,子集共同构成宿主机分类集、机架分类集或网络交换机分类集。3.根据权利要求1所述的一种基于日志分析和在线仿真的云服务故障检测方法,其特征是步骤S2具体包括:确定时间窗口;收集时间窗口内的日志,将日志与日志模板进行匹配,提取日志信息,并将日志信息转换成统一日志格式,统一日志格式包括主机名、日志模板类型、日志级别信息;将同一服务端的同一日志模板的日志级别为错误的日志集成在一起作为一条异常日志,获得异常日志集。4.根据权利要求3所述的一种基于日志分析和在线仿真的云服务故障检测方法,其特征是步骤S3具体包括:记录每个时间窗口中包含异常日志的服务端,获取所有时间窗口包括异常日志的服务端数据;将服务端数据转换为布尔型事务数据,采用频繁项集挖掘算法对布尔型事务数据进行挖掘计算,输出最大频繁项集;将最大频繁项集中所有服务端生成服务端故障子集。5.根据权利要求3所述的一种基于日志分析和在线仿真的云服务故障检测方法,其特征是步骤S3具体包括:以每个日志模板为一个维度,以每个日志模板集成后的异常日志次数为坐标值,生成多维向量空间;每个服务端对应的异常日志对应多维向量空间的一个点,获取服务端对应向量;计算所有服务端对应向量在多维向量空间中的质心向量;计算每个服务端对应向量到质心的距离;设定阈值,将服务端对应向量到质心的距离小于阈值的服务端生成服务端故障子集。6.根据权利要求1或2或3所述的一种基于日志分析和在线仿真的云服务故障检测方法,其特征是所述的由仿真客户端对故障子集对应的服务端进行业务仿真测试,获取仿真测试故障集,包括:将服务端故障子集发送给仿真客户端;仿真客户端向服务端故障子集中所有服务端发送业务请求,接受服务端返回的业务响应信息,根据业务响应信息判断仿真测试是否成功;计算每个服务端仿真测试失败次数与测试总数比值,并与设定的阈值比较,比值大于
阈值则判断测试结果为服务端故障,获取大于阈值的服务端生成仿真测试故障集。7.根据权利要求...

【专利技术属性】
技术研发人员:孙银海沈玉强罗峰
申请(专利权)人:杭州金硕信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1