一种基于Bert_RNN实现系统日志自动化分类的方法技术方案

技术编号:38213177 阅读:11 留言:0更新日期:2023-07-25 11:21
本发明专利技术公开一种基于Bert_RNN实现系统日志自动化分类的方法,涉及日志检索技术领域;获取已分类的日志文件信息,利用所述日志文件信息训练Bert日志分类模型,通过Bert日志分类模型将所述日志文件信息中文本语句进行特征转换,获得特征向量,将特征向量作为Embeddings输入双向RNN循环神经网络,优化Bert日志分类模型,其中通过双向RNN循环神经网络经过前向传递层和后向传递层分别获取输入序列每一个点的上文信息和下文信息,合并上文信息和下文信息的隐藏层状态作为输出,验证并测试优化后Bert日志分类模型,利用Bert日志分类模型进行系统日志自动化分类。分类模型进行系统日志自动化分类。分类模型进行系统日志自动化分类。

【技术实现步骤摘要】
一种基于Bert_RNN实现系统日志自动化分类的方法


[0001]本专利技术公开一种方法,涉及日志检索
,具体地说是一种基于Bert_RNN实现系统日志自动化分类的方法。

技术介绍

[0002]系统日志泛指运行于计算机上的软件系统所产生的相关记录信息,通常以文本文件的形式存在。系统日志包含了大量的关于系统运行、操作使用等相关情况的原始记录,如何更好的分析挖掘海量系统日志中包含的信息十分有意义,但海量日志分析是一个系统性的工程,包含了从原始数据采集到终端可视化的展示交互等一系列的环节。然而这些分类工作通常是需要工程师或用户来事先设置指定,但在实际应用中经常会出现日志类型指定错误或不知道所属类型的情况,导致需要对日志进行重新采集,或分析挖掘达不到预期的效果等问题。

技术实现思路

[0003]本专利技术针对现有技术的问题,提供一种基于Bert_RNN实现系统日志自动化分类的方法,对系统日志进行自动化分类,提高日志分类效率及分类准确性,便于系统分析挖掘日志内容。
[0004]本专利技术提出的具体方案是:
[0005]本专利技术提供一种基于Bert_RNN实现系统日志自动化分类的方法,获取已分类的日志文件信息,利用所述日志文件信息训练Bert日志分类模型,通过Bert日志分类模型将所述日志文件信息中文本语句进行特征转换,获得特征向量,
[0006]将特征向量作为Embeddings输入双向RNN循环神经网络,优化Bert日志分类模型,其中通过双向RNN循环神经网络经过前向传递层和后向传递层分别获取输入序列每一个点的上文信息和下文信息,合并上文信息和下文信息的隐藏层状态作为输出,
[0007]验证并测试优化后Bert日志分类模型,
[0008]利用Bert日志分类模型进行系统日志自动化分类。
[0009]进一步,所述的一种基于Bert_RNN实现系统日志自动化分类的方法中所述获取已分类的日志文件信息,利用所述日志文件信息训练Bert日志分类模型,包括:
[0010]将已分类的日志文件信息在句首均添加所属类别,存于一个文档中,并按照8:1:1的比例将所有的日志文件信息分成训练集、测试集和验证集,并分别建立训练集、测试集和验证集的数据集迭代器。
[0011]进一步,所述的一种基于Bert_RNN实现系统日志自动化分类的方法中所述通过Bert日志分类模型将所述日志文件信息中文本语句进行特征转换,获得特征向量,包括:利用字向量、段向量和位置向量的总和表示特征向量。
[0012]进一步,所述的一种基于Bert_RNN实现系统日志自动化分类的方法中所述优化Bert日志分类模型,包括:利用BertAdam算法优化Bert日志分类模型,将训练分为多个
epoch,每个epoch中按总的batch大小分为若干轮,在每轮训练的同时,使用验证集对Bert日志分类模型进行验证,使用函数functional.cross_entropy()和函数metrics.accuracy_score()计算损失值和准确率。
[0013]进一步,所述的一种基于Bert_RNN实现系统日志自动化分类的方法中所述使用验证集对Bert日志分类模型进行验证,包括:每轮训练结束,输出损失值和准确率;
[0014]验证损失值、验证准确率及时间,其中按照验证时的损失值进行比较,如果大于当前最好损失值则保存当前损失值,并且保存相应Bert日志分类模型;若小于当前最好损失值,则继续训练并验证;
[0015]如果在1000次batch内Bert日志分类模型性能未提升,则终止训练,保存本次训练性能最优的Bert日志分类模型,若达到预设最大epoch值,则将最后一次性能提升的Bert日志分类模型为最优模型。
[0016]进一步,所述的一种基于Bert_RNN实现系统日志自动化分类的方法中所述测试优化后Bert日志分类模型,包括:使用精确率P、召回率R和F1值(F1

score)作为评测指标测试Bert日志分类模型,其中精确率P:真正例占预测情况为正的样本的比例,计算公式为
[0017]召回率R:真正例占所有真实情况为正的样本的比例,计算公式为
[0018][0019]F1值:评判准确率和召回率的综合指标,计算公式为
[0020]本专利技术还提供一种基于Bert_RNN实现系统日志自动化分类的装置,包括训练模块、优化模块、验证模块、测试模块和分类模块,
[0021]训练模块获取已分类的日志文件信息,利用所述日志文件信息训练Bert日志分类模型,通过Bert日志分类模型将所述日志文件信息中文本语句进行特征转换,获得特征向量,
[0022]优化模块将特征向量作为Embeddings输入双向RNN循环神经网络,优化Bert日志分类模型,其中通过双向RNN循环神经网络经过前向传递层和后向传递层分别获取输入序列每一个点的上文信息和下文信息,合并上文信息和下文信息的隐藏层状态作为输出,
[0023]验证模块验证优化后Bert日志分类模型,测试模块测试优化后Bert日志分类模型,
[0024]分类模块利用Bert日志分类模型进行系统日志自动化分类。
[0025]本专利技术还提供一种基于Bert_RNN实现系统日志自动化分类的设备,包括:至少一个存储器和至少一个处理器;
[0026]所述至少一个存储器,用于存储机器可读程序;
[0027]所述至少一个处理器,用于调用所述机器可读程序,执行所述的一种基于Bert_RNN实现系统日志自动化分类的方法。
[0028]本专利技术的有益之处是:
[0029]本专利技术提供一种基于Bert_RNN实现系统日志自动化分类的方法,通过深度学习语言模型对日志自动化分类,Bert模型强大的预测能力可以有效提升分类准确性,利用循环
神经网络可以优化模型上下文理解及对长文本处理的优点可以对Bert分类模型进行优化,进一步提升准确性。
附图说明
[0030]图1是本专利技术日志分类框架示意图。
[0031]图2是循环神经网络结构示意图。
[0032]图3是Bert对单句分类的微调结构示意图。
[0033]图4是本专利技术中Bert_RNN结构示意图。
具体实施方式
[0034]注意力机制(Attention Mechanism)是深度学习中的重要组成部分,它是受到人脑注意力机制的启发。在人类的感知过程中,一般可以瞬间注意到最相关的部分,并将注意力集中于此。自注意力机制(self

attention)有一样的来源,在自然语言处理中,它的来源是文本信息,自注意力机制对文本本身计算来捕获文本的语义信息以及单词之间的依存关系。
[0035]Bert(Bidirectional Encoder Representation from Transformers),即双向Transformer编码器,Bert自提出后,在多项自然语言处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Bert_RNN实现系统日志自动化分类的方法,其特征是获取已分类的日志文件信息,利用所述日志文件信息训练Bert日志分类模型,通过Bert日志分类模型将所述日志文件信息中文本语句进行特征转换,获得特征向量,将特征向量作为Embeddings输入双向RNN循环神经网络,优化Bert日志分类模型,其中通过双向RNN循环神经网络经过前向传递层和后向传递层分别获取输入序列每一个点的上文信息和下文信息,合并上文信息和下文信息的隐藏层状态作为输出,验证并测试优化后Bert日志分类模型,利用Bert日志分类模型进行系统日志自动化分类。2.根据权利要求1所述的一种基于Bert_RNN实现系统日志自动化分类的方法,其特征是所述获取已分类的日志文件信息,利用所述日志文件信息训练Bert日志分类模型,包括:将已分类的日志文件信息在句首均添加所属类别,存于一个文档中,并按照8:1:1的比例将所有的日志文件信息分成训练集、测试集和验证集,并分别建立训练集、测试集和验证集的数据集迭代器。3.根据权利要求1所述的一种基于Bert_RNN实现系统日志自动化分类的方法,其特征是所述通过Bert日志分类模型将所述日志文件信息中文本语句进行特征转换,获得特征向量,包括:利用字向量、段向量和位置向量的总和表示特征向量。4.根据权利要求1所述的一种基于Bert_RNN实现系统日志自动化分类的方法,其特征是所述优化Bert日志分类模型,包括:利用BertAdam算法优化Bert日志分类模型,将训练分为多个epoch,每个epoch中按总的batch大小分为若干轮,在每轮训练的同时,使用验证集对Bert日志分类模型进行验证,使用函数functional.cross_entropy()和函数metrics.accuracy_score()计算损失值和准确率。5.根据权利要求4所述的一种基于Bert_RNN实现系统日志自动化分类的方法,其特征是所述使用验证集对Bert日志分类模型进行验证,包括:每轮训练结束,输出损失值和准确率;验证损失值、...

【专利技术属性】
技术研发人员:高嘉翾
申请(专利权)人:上海沄熹科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1