一种系统日志自动化分类的方法及装置制造方法及图纸

技术编号:35205496 阅读:17 留言:0更新日期:2022-10-15 10:16
本发明专利技术涉及日志检索技术领域,具体提供了一种系统日志自动化分类的方法,使用预训练模型,读取数据后进行特征转换,将特征向量输入至卷积神经网络进行进一步的特征提取,使用验证集调整参数,得到训练好的模型,从中挑选出最优的模型。与现有技术相比,本发明专利技术通过深度学习语言模型对日志自动化分类,Bert模型强大的预测能力可以有效提升分类准确性,利用卷积神经网络可以捕捉局部特征的优点可以对Bert分类模型进行优化,进一步提升准确性。进一步提升准确性。进一步提升准确性。

【技术实现步骤摘要】
一种系统日志自动化分类的方法及装置


[0001]本专利技术涉及日志检索
,具体提供一种系统日志自动化分类的方法及装置。

技术介绍

[0002]注意力机制(Attention Mechanism)是深度学习中的重要组成部分,它是受到人脑注意力机制的启发。在人类的感知过程中,一般可以瞬间注意到最相关的部分,并将注意力集中于此。自注意力机制(self

attention)有一样的来源,在自然语言处理中,它的来源是文本信息,自注意力机制对文本本身计算来捕获文本的语义信息以及单词之间的依存关系。
[0003]多头自注意力编码器由于可以执行大规模并行计算而且可以获取句子中每个位置的长距离依赖关系,因此在自然语言处理领域得到了广泛使用。一般多头自注意力编码器由两层组成,分别是多头自注意力机制和前馈神经网络,每层添加一个残差连接和层标准化,它的输入增加了对句子的位置嵌入。自注意力机制是多头自注意力编码器的关键,属于注意力机制的一种。它可以计算句子间的相互影响,减少了外部信息对其本身的干扰,更专注的捕捉特征内部的相互关系,解决了长距离依赖问题。
[0004]深度学习模型性能由很多因素决定,其训练数据的规模影响很大。为了让模型学习到更多的特征内容,就必须扩大其规模。相关的研究人员开始寻找大规模的无监督数据,使用这些大规模的数据训练模型,这些模型具有预设的学习目标,可以有效提升模型的鲁棒性和泛化能力。
[0005]Bert(Bidirectional Encoder Representation from Transformers),即双向Transformer编码器,Bert自提出后,在多项自然语言处理任务都表现出色,对于文本分类也有一定提升。官方提供的Bert预训练模型使其便于使用。读取句子进行MASK模型训练,提取特征,对于日志分类任务也只需要对其进行微调,添加类别标签即可。
[0006]卷积神经网络(Convolutional Neural Networks,CNN),一开始被广泛应用在图像识别领域,随着自然语言处理的兴起,被应用文本处理领域,展现了良好的性能。CNN中上一层的神经元与下一层的神经元采取的是局部连接方式,一定程度上减少了参数的规模,提高了训练过程的速度。CNN一般包含以下层级:嵌入层、卷积层、池化层和全连接层。利用卷积神经网络可以捕捉局部特征的优点可以对Bert分类模型进行优化,对一些参数进行微调,优化训练速度。
[0007]系统日志泛指运行于计算机上的软件系统所产生的相关记录信息,通常以文本文件的形式存在。系统日志包含了大量的关于系统运行、操作使用等相关情况的原始记录,对于一家企业来说是非常宝贵的数据资产。如何更好的分析挖掘海量系统日志中包含的有意信息,是本领域技术人员亟待解决的问题。
[0008]在海量系统日志数据采集的过程中经常需要对日志数据进行分类,这些分类工作通常是需要工程师或用户来事先设置指定的。但在实际应用中经常会出现日志类型指定错
误或不知道所属类型的情况,经常导致需要对日志进行重新采集,或分析挖掘达不到预期的效果等问题。

技术实现思路

[0009]本专利技术是针对上述现有技术的不足,提供一种实用性强的系统日志自动化分类的方法。
[0010]本专利技术进一步的技术任务是提供一种设计合理,安全适用的系统日志自动化分类的装置。
[0011]本专利技术解决其技术问题所采用的技术方案是:
[0012]一种系统日志自动化分类的方法,使用预训练模型,读取数据后进行特征转换,将特征向量输入至卷积神经网络进行进一步的特征提取,使用验证集调整参数,得到训练好的模型,从中挑选出最优的模型。
[0013]进一步的,具体步骤如下:
[0014]S1、将已有的日志文件信息分类,分为训练集、测试集和验证集;
[0015]S2、为数据建立迭代器;
[0016]S3、将特征向量作为Embeddings输入卷积神经网络;
[0017]S4、在卷积神经网络中进行训练,对训练分为多个epoch;
[0018]S5、在测试时,使用特定函数来调用训练过程中保存的最优模型;
[0019]S6、使用精确率P、召回率R和F1值作为评测指标。
[0020]进一步的,在步骤S1中,将已有的日志文件信息分好类,在句首均添加所属类别,存于一个文档中,并按照一定比例将所有的信息分成训练集、测试集和验证集。
[0021]进一步的,在步骤S2中,在读取数据集的数据后,Bert的预训练模型对文本语句进行特征转换,作为分类模型的输入向量;
[0022]Bert模型的输入用一个标记序列明确的表示单个文本句子和成对的文本句子,输入嵌入用字向量、段向量和位置向量的总和来表示。
[0023]进一步的,在步骤S3中,对数据完成特征转换之后,将特征向量作为Embeddings输入卷积神经网络,送入模型中开始训练,使用BertAdam算法进行参数优化。
[0024]进一步的,在步骤S4中,对训练分为多个epoch,每个epoch中按总的batch大小分为若干轮,在每轮训练的同时,使用验证集的数据对其进行验证,使用特定的函数计算损失值和准确率;
[0025]每轮训练结束,输出训练损失值、训练准确率、验证损失值、验证准确率及时间,按照验证时的损失值进行比较,如果大于当前最好则保存当前损失值,并且保存模型;
[0026]若小于当前最好损失值,则继续训练、验证;如果在若干次batch内模型性能依旧没有提升,则终止训练,保存本次训练性能最优的模型,若达到预设最大epoch值,则最后一次有提升的模型为最优模型。
[0027]进一步的,在步骤S5中,在测试时,读取数据后对其进行特征转换,使用特定函数来调用训练过程中保存的最优模型,对输入的特征转换后的向量进行计算,在测试结束后输出相应的结果报告。
[0028]进一步的,在步骤S6中,使用精确率P、召回率R和F1值作为评测指标,
[0029]精确率P:真正例占预测情况为正的样本的比例,计算公式为
[0030]召回率R:真正例占所有真实情况为正的样本的比例,计算公式为
[0031]F1值:评判准确率和召回率的综合指标,计算公式为
[0032]一种系统日志自动化分类的装置,包括:至少一个存储器和至少一个处理器;
[0033]所述至少一个存储器,用于存储机器可读程序;
[0034]所述至少一个处理器,用于调用所述机器可读程序,执行一种系统日志自动化分类的方法。
[0035]本专利技术的一种系统日志自动化分类的方法及装置和现有技术相比,具有以下突出的有益效果:
[0036]本专利技术通过深度学习语言模型对日志自动化分类,Bert模型强大的预测能力可以有效提升分类准确性,利用卷积神经网络可以捕捉局部特征的优点可以对Bert分类模型进行优化,进一步提升准确性。
附图说明
[0037]为了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种系统日志自动化分类的方法,其特征在于,使用预训练模型,读取数据后进行特征转换,将特征向量输入至卷积神经网络进行进一步的特征提取,使用验证集调整参数,得到训练好的模型,从中挑选出最优的模型。2.根据权利要求1所述的一种系统日志自动化分类的方法,其特征在于,具体步骤如下:S1、将已有的日志文件信息分类,分为训练集、测试集和验证集;S2、为数据建立迭代器;S3、将特征向量作为Embeddings输入卷积神经网络;S4、在卷积神经网络中进行训练,对训练分为多个epoch;S5、在测试时,使用特定函数来调用训练过程中保存的最优模型;S6、使用精确率P、召回率R和F1值作为评测指标。3.根据权利要求1所述的一种系统日志自动化分类的方法,其特征在于,在步骤S1中,将已有的日志文件信息分好类,在句首均添加所属类别,存于一个文档中,并按照一定比例将所有的信息分成训练集、测试集和验证集。4.根据权利要求3所述的一种系统日志自动化分类的方法,其特征在于,在步骤S2中,在读取数据集的数据后,Bert的预训练模型对文本语句进行特征转换,作为分类模型的输入向量;Bert模型的输入用一个标记序列明确的表示单个文本句子和成对的文本句子,输入嵌入用字向量、段向量和位置向量的总和来表示。5.根据权利要求4所述的一种系统日志自动化分类的方法,其特征在于,在步骤S3中,对数据完成特征转换之后,将特征向量作为Embeddings输入卷积神经网络,送入模型中开始训练,使用BertAdam算法进行参数优化。6.根据权利要...

【专利技术属性】
技术研发人员:高嘉翾
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1