【技术实现步骤摘要】
日志分类方法、装置、电子设备及存储介质
[0001]本专利技术涉及日志分类
,尤其涉及一种日志分类方法、装置、电子设备及存储介质。
技术介绍
[0002]软件运行时的状态对于软件的质量评估至关重要,通过日志记录软件运行时发生的异常可以有效的分析出软件产品在运行过程中发生的问题,以便于根据这些问题进行系统优化。在当前的软件开发运行中,通过日志来检测、分类、统计和定位软件的运行问题,是开发和维护人员一种常用的技术手段。传统日志分类方法是通过AC(Aho
‑
Corasick automaton,自动机)进行日志自动分类,AC自动机是一种有限状态自动机被用于多模式串的字符串匹配。但由于日志文本量大、日志输出格式不统一,并且上下文语义不清楚,导致AC自动机的分类结果不准确,从而影响后续软件异常定位的顺利进行。相关技术中,通过分析和统计建模技术来对日志进行实时自动化的分析,例如通过传统的决策树模型、transformer模型等技术对日志文本进行分析和异常分类。但由于这些模型计算量较大,造成内存开销、时效和资源消耗 ...
【技术保护点】
【技术特征摘要】
1.一种日志分类方法,其特征在于,包括:收集待分类日志;对所述待分类日志进行解析,获取待分类日志模板序列;将所述待分类日志模板序列输入剪枝后的日志缺陷分类模型,以输出日志分类结果,其中,所述日志缺陷分类模型根据日志模板序列训练集训练得到。2.根据权利要求1所述的日志分类方法,其特征在于,所述对所述待分类日志进行解析,获取待分类日志模板序列,包括:通过正则表达式找到所述待分类日志中节点标识符,以所述节点标识符为分割点,抽取出所述待分类日志的日志token数据;将所述日志token数据的字段长度与预定解析树中首层节点日志长度进行匹配,匹配到相同长度的节点后,继续进行此节点下游子节点的匹配检查;将所述日志token数据的完整单词与所述预定解析树中对应的模板分支中的完整单词进行匹配,匹配到具有相同完整单词的节点后,将剩余日志token数据继续与此节点的下游子分支继续匹配,直到与所述预定解析树中某个日志模版的匹配度超过预设阈值,则得到该日志所属的日志模版。3.根据权利要求1所述的日志分类方法,其特征在于,所述日志缺陷分类模型为基于BERT的日志缺陷分类模型,所述日志缺陷分类模型的训练方法包括:对历史日志数据进行解析,得到训练日志模板序列;根据所述训练日志模板序列其对应标注分类结果生成日志模板序列训练集;将所述日志模板序列训练集中的训练日志模板序列输入所述基于BERT的日志缺陷分类模型,得到预测分类结果;根据所述预测分类结果与所述训练日志模板序列对应的标注分类结果得到损失函数的结果;根据所述损失函数的结果优化所述基于BERT的日志缺陷分类模型中的参数。4.根据权利要求3所述的日志分类方法,其特征在于,所述基于BERT的日志缺陷分类模型包括多个网络结构层,每个网络结构层对应一个计算模块,所述日志缺陷分类模型的剪枝方法包括:在每一结构层中,将所述训练日志模板序列的词嵌入张量转换为Query矩阵、Key矩阵和Value矩阵;在上一结构层对应的计算模块中得到的每个日志token数据的注意力得分,计算每个日志token数据的重要性得分;根据所述重要性得分筛选出多个重要阈值范围对应的日志token数据;根据不同重要阈值调整每个日志token数据对应的Quer...
【专利技术属性】
技术研发人员:李晓玲,
申请(专利权)人:嬴彻星创智能科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。