【技术实现步骤摘要】
一种日志快速归类方法及装置
[0001]本文涉及计算机
,可以适用于金融领域,尤其涉及一种日志快速归类方法及装置。
技术介绍
[0002]随着科技的不断发展,科技类服务的质量不断提高,为了高效运维,在服务器出现故障时会上报大量的日志,运维人员可以通过日志分析故障原因,但大批量的日志带来了日志快速归类的难题,此外,由于同一故障可能会上报多条日志,运维人员很难在大批量日志中快速定位故障原因。
[0003]目前,人工凭借经验对日志进行归类的方法存在效率低、工作量大等问题。使用机器学习的聚类算法对日志进行归类是一个比较普遍的方法,但是常规的聚类算法只能通过再次聚类的方式对新增的日志进行归类,无法实现日志匹配模板的方式快速归类,日志聚类的计算量巨大。
[0004]现在亟需一种能够将日志快速归类的方法,从而解决现有技术中对日志归类效率低、计算量大的问题。
技术实现思路
[0005]为解决现有技术中对日志归类效率低、计算量大的问题,本文实施例提供了一种日志快速归类方法及装置,能够更精准地对日志进行聚类 ...
【技术保护点】
【技术特征摘要】
1.一种日志快速归类方法,其特征在于包括,对日志库进行文本向量化处理,得到日志文本向量集;将所述日志文本向量集进行聚类,得到日志聚类结果;分析所述日志聚类结果,得到日志模板;根据所述日志模板,对输入的日志进行匹配,得到日志匹配模板列表;根据所述日志匹配模板列表,得到日志关联模板,所述日志关联模板用于完成日志归类。2.根据权利要求1所述的一种日志快速归类方法,其特征在于,对日志库进行文本向量化处理,得到日志文本向量集进一步包括,对所述日志库进行数据清洗;分割所述日志库中各日志的特有字段,得到日志文本;对所述日志文本进行编码,得到日志文本向量集。3.根据权利要求1所述的一种日志快速归类方法,其特征在于,将所述日志文本向量集进行聚类,得到日志聚类结果进一步包括,通过k
‑
means算法对所述日志文本向量集进行多次聚类,得到多组日志分类结果;分别计算每组日志分类结果的余弦cosine相似度;选取所述cosine相似度之和最大的日志分类结果作为日志聚类结果。4.根据权利要求3所述的一种日志快速归类方法,其特征在于,通过k
‑
means算法对所述日志文本向量集进行多次聚类进一步包括,在所述日志文本向量集中选择K个点作为质心,所述K个点表示K个聚类结果;将所述日志文本向量集中各日志向量指派到最近的所述质心,形成K个簇;重新计算每个簇的质心,直到所述质心不再发生变化,得到日志分类结果。5.根据权利要求3所述的一种日志快速归类方法,其特征在于,分别计算每组日志分类结果的cosine相似度的计算公式为,结果的cosine相似度的计算公式为,其中,K为聚类的数量,x为日志文本向量,Ci为第i个簇,ci为簇Ci的质心,mi为第i个簇中日志的个数。6.根据权利要求1所述的一种日志快速归类方法,其特征在于,分析所述日志聚类结果,得到日志模板进一步包括,计算所述日志聚类结果中不同类别的词汇量,选取出现次数最多的k个单词生成所述类别对应的日志模板,其中,k为大于等于1的自然数;通过所述日志模板对所述类别中的日志文本向量进行匹配,当不能匹配全部日志文本向量时,减小k的取值,重新生成所述类别对应的日志模...
【专利技术属性】
技术研发人员:屠彧,李家炎,许广洋,徐晨灿,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。