日志分类方法、装置及电子设备制造方法及图纸

技术编号:28135027 阅读:28 留言:0更新日期:2021-04-21 19:01
本发明专利技术实施例涉及数据分析技术领域,公开了一种日志分类方法、日志分类装置、其电子设备及计算机存储介质。该方法包括:生成训练数据集,所述训练数据集为带有标签的日志;通过所述训练数据集,训练获得自然语言处理模型;将待分类日志划分为中文文本以及非中文文本;根据所述自然语言处理模型,计算所述中文文本的第一类别信息;根据所述自然语言处理模型,计算所述非中文文本的第二类别信息;整合所述第一类别信息和所述第二类别信息,生成对应的特征向量;根据所述特征向量,确定所述待分类日志的日志类别。通过上述方式,本发明专利技术实施例实现了的对非结构化的日志进行精准的自动分类,极大的提升了运维人员分析日志的效率。极大的提升了运维人员分析日志的效率。极大的提升了运维人员分析日志的效率。

【技术实现步骤摘要】
日志分类方法、装置及电子设备


[0001]本专利技术实施例涉及数据分析
,具体涉及一种日志分类方法、日志分类装置、其电子设备及计算机存储介质。

技术介绍

[0002]日志是各类应用系统在运行时产生的信息,如日常操作、网络访问、系统警告、系统错误等事件的相关属性与信息。
[0003]为了帮助开发者和维护者掌握系统运行的信息,日志内建于几乎所有的应用系统。其对于分析应用系统运行情况,提供系统故障的原因分析和监控预警有着重要的作用。
[0004]随着应用系统的规模日益庞大,复杂度逐渐提升,产生的日志数据量非常大,使得人工逐条分析日志成为一件成本极高且几乎不可能的任务。因此,通常会采用计算机辅助的方式,对大量的日志进行自动化分类,以降低日志数据的规模。
[0005]但是,应用系统的日志的数据类型也与系统监控指标存在很大的差异,应用系统的日志通常都是由应用系统架构自行吐出,或是开发人员自行编写规定的。日志中不具备类似于属性,数值的结构化特征,也没有特定的格式,日志通常表现为一串结合系统行为特征的自然语言串
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志分类方法,其特征在于,所述方法包括:生成训练数据集,所述训练数据集为带有标签的日志;通过所述训练数据集,训练获得自然语言处理模型;将待分类日志划分为中文文本以及非中文文本;根据所述自然语言处理模型,计算所述中文文本的第一类别信息;根据所述自然语言处理模型,计算所述非中文文本的第二类别信息;整合所述第一类别信息和所述第二类别信息,生成对应的特征向量;根据所述特征向量,确定所述待分类日志的日志类别。2.根据权利要求1所述的方法,其特征在于,所述生成训练数据集,具体包括:根据采集获得的日志的原始结构化特征,聚合形成若干个日志簇;在每个所述日志簇中,提取若干条日志作为样本数据;根据所述样本数据,确定每个所述日志簇的标签;记录所述日志簇、样本数据和标签之间的对应关系,形成所述训练数据集。3.根据权利要求1所述的方法,其特征在于,所述根据所述自然语言处理模型,计算所述中文文本的第一类别信息,具体包括:将所述中文文本表示为若干个单词的集合;通过词典的映射,将每一个单词转换为对应的词向量;所述词典通过训练获得;叠加所述中文文本的词向量和n-garm向量后求平均,获得与所述中文文本对应的中文文档向量;根据所述中文文档向量,计算所述中文文本的第一类别信息。4.根据权利要求3所述的方法,其特征在于,所述根据所述自然语言处理模型,计算所述非中文文本的第二类别信息,具体包括:将所述非中文文本表示为若干个单词的集合;通过词典的映射,将每一个单词转换为对应的词向量;所述词典通过训练获得;叠加所述非中文文本的词向量和n-garm向量后求平均,获得与所述非中文文本对应的非中文文档向量;根据所述非中文文档向量,计算所述非中文文本的第二类别信息。5.根据权利要求4所述的方法,其特征在于,所述日志类别包括第1日志类别至第N日志类别,N为正整数;所述第一类别信息为所述中文文本分别属于第1日志类别至第N日志类别的概率向量;所述第二类别信息为所述非中文文本分别属于第1日志类别至第N日志类别的概率向量。6.根据权利要求5所述的方法,其特征在于,所述整合所述第一类别信息和所述第二类别信息,生成对应的特征向量,具体包括:将所述第一类别信息和所述第二类别信息对应的概率向量进行纵向拼接,生成对...

【专利技术属性】
技术研发人员:林昊叶晓龙余建利竺士杰胡林熙蒋通通乔柏林
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1