一种基于日志的根因分析系统技术方案

技术编号:36190111 阅读:44 留言:0更新日期:2022-12-31 21:03
本发明专利技术公开了一种基于日志的根因分析系统,包括:多层特征提取器,用于从日志中提取多极特征,以捕捉类似日志中的高层次共性;根因定位器,用于接收多层特征提取器提取的特征,以无监督的方式自动定位故障。还公开了一种基于日志的根因分析方法,包括步骤:S1语言模型微调;S2常态特征提取;S3未知日志特征提取;S4异常分数计算;S5结果输出。本发明专利技术可以规避日志解析器的误导,可以避免将正常的演化事件识别为根因,大幅提高识别精准率;本发明专利技术采用一个由两个子定位器构成的根因定位器,分析中心日志是否异常,并结合其上下文(即整体序列)综合分析中心日志是否异常,从而准确地识别出异常序列。常序列。常序列。

【技术实现步骤摘要】
一种基于日志的根因分析系统


[0001]本专利技术涉及自动化日志分析
,特别是涉及一种基于日志的根因分析系统。

技术介绍

[0002]自动化日志分析技术是一类通过分析软件日志实现软件可靠性管理的技术,致力于克服人工检索日志所带来的效率低、遗漏多、准确性低等痛点。其中,基于日志的根因分析是一种细粒度的自动化日志分析技术,旨在将会话中的异常日志与故障的可能解释进行定位,从而为进一步确定和排除故障提供重要参考。现有的基于日志的根因分析技术通过使用不包含异常的日志序列构建一个参考模型,然后通过判断测试日志是否偏离此模型,来区分正常日志和日常日志,具体来说,已有方法首先提取日志事件序列,然后将日志事件序列通过有限状态机或因果关系,抽象为一个有向图,作为参考模型。然后,任何偏离该模型的日志都将被视为异常的根本原因,并被标记以为系统做故障排除。
[0003]然而,基于因果图的方法依赖于贝叶斯的后验概率。基于有限状态机的方法和基于因果图的方法都遵循封闭世界的假设,在处理未知数据时受到限制。然而,在最初的版本发布后,软件经历了持续的发展,以满足客户的需求,修复错误,并扩展到新的功能,即软件演化。以Spark系统为例,从Spark2到Spark3,关于日志的开发包括(1)在添加新功能时插入新的日志语句功能时插入新的日志语句;(2)解析日志语句,以便更精确地记录;(3)在废弃的函数中删除旧的日志语句。
[0004]软件演化过程中中改变的日志语句对现有的根因分析技术提出了挑战,包含一下三方面:
[0005]日志解析器从日志信息中提取事件(即由开发人员编写的固定模板)和参数(即从系统中生成的动态变量)。由于现代日志分析只使用提取的事件,根因分析技术的性能在很大程度上取决于日志解析器的准确性。然而,解析器有可能产生错误并误导根因分析器。此外,软件进化过程中新引入的参数也会降低解析器的性能。已有的根因分析技术无法克服由解析器引起的缺陷。
[0006]即使最先进的解析器如期工作,软件演化也会带来新的日志语句或改写旧的日志语句,即事件演化。演变的事件将偏离已有的根因技术中的参考模型(因而被直接视为异常的根因,引发错误),因为它们都不能在训练过程中被模型观察到。
[0007]除了单条的日志事件之外,运行相同作业的日志序列也会发生变化,称为不稳定的序列。这种变化可能是由多个线程产生的日志交错造成的。此外,软件演化可能会改变函数调用序列,导致新的序列模式。然而,基于有限状态及的方法假设日志在正常状态下遵循严格的时间顺序,因而不能解决不稳定的序列问题。
[0008]总的来说,现有的根因分析技术都没有考虑到软件演化的情况,而如果不进行特殊处理,软件演化会导致根因分析技术的性能低下。

技术实现思路

[0009]本专利技术的目的是在于解决已有的根因分析技术无法克服由解析器引起的缺陷,没有考虑到软件演化的情况,而如果不进行特殊处理,软件演化会导致根因分析技术的性能低下的技术问题。
[0010]为此,本专利技术提出一种基于日志的根因分析系统,包括:
[0011]多层特征提取器,用于从日志中提取多极特征,以捕捉类似日志中的高层次共性;
[0012]根因定位器,用于接收多层特征提取器提取的特征,以无监督的方式自动定位故障。
[0013]在本专利技术的一些实施例中,所述多层特征提取器提取的特征包括单条日志的语义表征,具体提取方式为:
[0014]用大型语料库对大型自然语言处理模型(Large Language Processing Model,LLPM)进行训练,并采用对比学习对LLPM进行微调,利用微调后的LLPM提取单条日志的语义表征。
[0015]所述对比学习具体为,为了构建相似的日志对,通过两次应用dropout功能将一个日志送入LPLM以获得两个不同的嵌入,在批训练背景下,将同一批(Batch)中的其他日志被认为是不相似的对。
[0016]在本专利技术的一些实施例中,所述多层特征提取器提取的特征还包括抽象表征,具体提取方式为:建立一个基于密度的方法对所述信息表征进行层次聚类得到抽象表征。
[0017]在本专利技术的一些实施例中,所述基于密度的方法为HDBSCAN。
[0018]在本专利技术的一些实施例中,在层次聚类过程中,利用主成分分析降低输入表示的维度,提高算法的效率。
[0019]在本专利技术的一些实施例中,所述根因定位器包括一个局部定位器,其使用当前检测窗口的中心日志及其上下文来获取针对不稳定序列的局部特征,然后学习这种局部特征的常态,即学习系统正常无故障运行状态下的上下文常态,其中所述中心日志为当前待检测日志。
[0020]在本专利技术的一些实施例中,所述根因定位器还包括一个单位定位器,其学习单个日志的单位特征,即学习单个日志的常态,得到常态单位特征和常态上下文特征。
[0021]所述以无监督的方式自动定位故障具体为:
[0022]首先,单位定位器计算出当前检测的日志的单位特征和常态单位特征的差值,记为abnScore
uni

[0023]然后,局部定位器计算出当前日志的上下文特征和常态上下文特征的差值,记为abnScore
local
;两个定位器计算出的异常分数的加权和为λ
×
abnScore
uni
+(1

λ)
×
abnScore
local
,参数λ是人工定义的参数,取值为0~1;
[0024]如果异常分数的加权和大于人工预设的阈值D,则判定为异常,即标记当前日志为根因并输出。
[0025]本专利技术还提出一种基于日志的根因分析方法,包括如下步骤:
[0026]S1、语言模型微调:使用正常状态下的日志文本对已经预训练好的LLPM进行微调,即只改变语言模型最下游几层网络的权值;
[0027]S2、常态特征提取:输入正常状态下的文本到所述特征提取器中,每条日志本身及
其上下文日志分别通过多层特征提取器,并通过对比学习提取系统在正常运行下生成的日志的特征,即常态特征,包括单位常态特征和上下文常态特征,同时训练本专利技术提出的模型;
[0028]S3、未知日志特征提取:输入待检测的日志文件,重复步骤S2,通过多层特征提取器提取当前日志特征,包括单位特征和上下文特征;
[0029]S4、异常分数计算:将步骤S2和步骤S3中的单位常态特征和单位特征、上下文常态特征和上下文特征分别进行比较并计算距离,再计算距离的加权和,作为待检测日志的异常分数;
[0030]S5、结果输出:如果步骤S4中得到的异常分数大于人工预先定义的阈值,则标记此日志为根因并输出,否则则将此日志视为正常日志,不予标记。
[0031]本专利技术具有如下有益效果:
[0032](1)日志解析器有可能产生错误并误导已有根因分析器,但是本专利技术没有使用日志解析器,而是直接设计了多层特征提取器,借助语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于日志的根因分析系统,其特征在于,包括:多层特征提取器,用于从日志中提取多极特征,以捕捉类似日志中的高层次共性;根因定位器,用于接收多层特征提取器提取的特征,以无监督的方式自动定位故障。2.根据权利要求1所述的基于日志的根因分析系统,其特征在于,所述多层特征提取器提取的特征包括单条日志的语义表征,具体提取方式为:用大型语料库对大型自然语言处理模型LLPM进行训练,并采用对比学习对LLPM进行微调,利用微调后的LLPM提取单条日志的语义表征。3.根据权利要求2所述的基于日志的根因分析系统,其特征在于,所述对比学习具体为,为了构建相似的日志对,通过两次应用dropout功能将一个日志送入LPLM以获得两个不同的嵌入,在批训练背景下,将同一批中的其他日志被认为是不相似的对。4.根据权利要求2所述的基于日志的根因分析系统,其特征在于,所述多层特征提取器提取的特征还包括抽象表征,具体提取方式为:建立一个基于密度的方法对所述信息表征进行层次聚类得到抽象表征。5.根据权利要求4所述的基于日志的根因分析系统,其特征在于,所述基于密度的方法为HDBSCAN。6.根据权利要求4所述的基于日志的根因分析系统,其特征在于,在层次聚类过程中,利用主成分分析降低输入表示的维度,提高算法的效率。7.根据权利要求1所述的基于日志的根因分析系统,其特征在于,所述根因定位器包括一个局部定位器,其使用当前检测窗口的中心日志及其上下文来获取针对不稳定序列的局部特征,然后学习这种局部特征的常态,即学习系统正常无故障运行状态下的上下文常态,其中所述中心日志为当前待检测日志。8.根据权利要求7所述的基于日志的根因分析系统,其特征在于,所述根因定位器还包括一个单位定位器,其学习单个日志的单位特征,即学习单个日志的常态,得到常态单位特征和常态上下文特征。9.根据权利要求8所述的基于日志的根因分析系统,其特征在于...

【专利技术属性】
技术研发人员:吕荣聪霍茵桐李柏橦苏玉鑫刘金杨
申请(专利权)人:香港中文大学深圳研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1