日志文本的聚类方法、装置、处理器及电子设备制造方法及图纸

技术编号:38720910 阅读:8 留言:0更新日期:2023-09-08 23:16
本申请公开了一种日志文本的聚类方法、装置、处理器及电子设备,该方法应用于大数据技术领域,该方法包括:获取候选K值集合;依据N个候选K值对日志文本集合中的日志文本进行聚类,得到N个聚类结果;依据N个聚类结果和候选K值集合,确定目标K值和目标K值对应的聚类结果;依据目标K值对应的聚类结果,确定日志文本集合的目标聚类结果。通过本申请,解决了相关技术中将人为经验确定的预设数值作为质心的数量对日志文本进行K

【技术实现步骤摘要】
日志文本的聚类方法、装置、处理器及电子设备


[0001]本申请涉及大数据
,具体而言,涉及一种日志文本的聚类方法、装置、处理器及电子设备。

技术介绍

[0002]传统的K

Means算法对日志文本进行聚类时,可以基于人为经验对现有的日志数据的类别进行估测,即预先设定K

Means算法对应的K值,K值等于划分的类别数量。例如,基于人为经验设定聚类结果的多个类别,接着将日志文本集中的日志文本划分至已设定好的多个类别中。
[0003]但是对于陌生的日志文本的集合,或者是在现有的日志文本集中新增一些日志文本数据,可能造成工作人员对数据整体分布感知不清晰,导致基于人为经验设定的K值具有一定的盲目性和主观性的问题,即该K值不适合待聚类的日志文本集,进而使得根据该K值进行聚类得到的聚类结果不准确。
[0004]针对相关技术中将人为经验确定的预设数值作为质心的数量对日志文本进行K

Means聚类时,由于人为经验确定的预设数值具有主观性和盲目性,导致日志文本的聚类结果的准确率比较低的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请的主要目的在于提供一种日志文本的聚类方法、装置、处理器及电子设备,以解决相关技术中将人为经验确定的预设数值作为质心的数量对日志文本进行K

Means聚类时,由于人为经验确定的预设数值具有主观性和盲目性,导致日志文本的聚类结果的准确率比较低的问题。
[0006]为了实现上述目的,根据本申请的一个方面,提供了一种日志文本的聚类方法,该方法包括:获取候选K值集合,其中,所述候选K值集合中包括N个候选K值,所述候选K值是预设质心数量,N是正整数,K是大于1的整数;依据N个所述候选K值对日志文本集合中的日志文本进行聚类,得到N个聚类结果;依据所述N个聚类结果和所述候选K值集合,确定目标K值和所述目标K值对应的聚类结果;依据所述目标K值对应的聚类结果,确定所述日志文本集合的目标聚类结果。
[0007]进一步地,获取候选K值集合包括:在所述日志文本集合中随机选择预设数量的日志文本,得到第一数据集合;对所述第一数据集合中的日志文本进行多次聚类,得到多个初始K值,并依据所述多个初始K值,确定第一K值;以所述第一K值为中心,确定数值选择范围,并依据所述数值选择范围,确定N个所述候选K值;基于N个所述候选K值,生成所述候选K值集合。
[0008]进一步地,依据N个所述候选K值对日志文本集合中的日志文本进行聚类,得到N个聚类结果包括:对于每个所述候选K值,在所述日志文本集合中确定该候选K值对应的K个质心;依据所述K个质心对所述日志文本集合中的日志文本进行聚类,得到该候选K值对应的
聚类结果;综合所有的所述候选K值对应的聚类结果,得到所述N个聚类结果。
[0009]进一步地,对于每个所述候选K值,在所述日志文本集合中确定该候选K值对应的K个质心包括:对所述日志文本集合中日志文本之间的余弦距离进行计算,得到每个所述日志文本对应的余弦距离集合;对每个所述日志文本对应的余弦距离集合中小于预设阈值的余弦距离的数量进行计算,得到每个所述日志文本的密度;依据每个所述日志文本的密度,在所述日志文本集合中确定该候选K值对应的K个质心。
[0010]进一步地,依据每个所述日志文本的密度,在所述日志文本集合中确定该候选K值对应的K个质心包括:依据每个所述日志文本的密度对所述日志文本集合中的日志文本进行排序,并将次序为第一位的第一日志文本确定为第一质心;依据所述日志文本集合中除所述第一日志文本之外的日志文本与所述第一日志文本的余弦距离,确定第二日志文本,并将所述第二日志文本确定为第二质心;依据所述日志文本集合中的日志文本与所述第一质心的余弦距离和所述日志文本集合中的日志文本与所述第二质心的余弦距离,确定每个日志文本的目标余弦距离,并依据每个所述日志文本的目标余弦距离,确定下一个质心;重复执行依据所述日志文本集合中的日志文本与已确定的质心的余弦距离,确定每个日志文本的目标余弦距离,并依据每个所述日志文本的目标余弦距离,确定下一个质心的步骤,直至确定第K个质心。
[0011]进一步地,依据所述N个聚类结果和所述候选K值集合,确定目标K值和所述目标K值对应的聚类结果包括:依据所述N个聚类结果,确定每个聚类结果对应的K个簇,其中,每个簇包括多个日志文本;对于每个聚类结果,对该聚类结果对应的每个簇的簇中心之间的余弦距离进行计算,得到该聚类结果对应的第一距离;对于每个聚类结果,对该聚类结果对应的每个簇的簇中心与该簇内的日志文本之间的余弦距离进行计算,得到该聚类结果对应的第二距离;依据所述第一距离和所述第二距离进行计算,得到每个聚类结果对应的聚类评分;依据每个聚类结果对应的聚类评分,从所述候选K值集合中确定目标K值和从所述候选K值集合中确定所述目标K值对应的聚类结果。
[0012]进一步地,在依据所述目标K值对应的聚类结果,确定所述日志文本集合的目标聚类结果之后,所述方法还包括:依据所述目标聚类结果,确定目标设备的故障信息,其中,所述目标设备为所述日志文本集合对应的设备;将所述故障信息发送至目标对象,其中,所述目标对象依据所述故障信息对所述目标设备进行优化。
[0013]为了实现上述目的,根据本申请的另一方面,提供了一种日志文本的聚类装置,该装置包括:获取单元,用于获取候选K值集合,其中,所述候选K值集合中包括N个候选K值,所述候选K值是预设质心数量,N是正整数,K是大于1的整数;聚类单元,用于依据N个所述候选K值对日志文本集合中的日志文本进行聚类,得到N个聚类结果;第一确定单元,用于依据所述N个聚类结果和所述候选K值集合,确定目标K值和所述目标K值对应的聚类结果;第二确定单元,用于依据所述目标K值对应的聚类结果,确定所述日志文本集合的目标聚类结果。
[0014]进一步地,所述获取单元包括:第一确定子单元,用于在所述日志文本集合中随机选择预设数量的日志文本,得到第一数据集合;第一聚类子单元,用于对所述第一数据集合中的日志文本进行多次聚类,得到多个初始K值,并依据所述多个初始K值,确定第一K值;第二确定子单元,用于以所述第一K值为中心,确定数值选择范围,并依据所述数值选择范围,确定N个所述候选K值;生成子单元,用于基于N个所述候选K值,生成所述候选K值集合。
[0015]进一步地,所述聚类单元包括:第三确定子单元,用于对于每个所述候选K值,在所述日志文本集合中确定该候选K值对应的K个质心;第二聚类子单元,用于依据所述K个质心对所述日志文本集合中的日志文本进行聚类,得到该候选K值对应的聚类结果;第四确定子单元,用于综合所有的所述候选K值对应的聚类结果,得到所述N个聚类结果。
[0016]进一步地,所述第三确定子单元包括:第一计算模块,用于对所述日志文本集合中日志文本之间的余弦距离进行计算,得到每个所述日志文本对应的余弦距离集合;第二计算模块,用于对每个所述日志文本对应的余弦距本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志文本的聚类方法,其特征在于,包括:获取候选K值集合,其中,所述候选K值集合中包括N个候选K值,所述候选K值是预设质心数量,N是正整数,K是大于1的整数;依据N个所述候选K值对日志文本集合中的日志文本进行聚类,得到N个聚类结果;依据所述N个聚类结果和所述候选K值集合,确定目标K值和所述目标K值对应的聚类结果;依据所述目标K值对应的聚类结果,确定所述日志文本集合的目标聚类结果。2.根据权利要求1所述的方法,其特征在于,获取候选K值集合包括:在所述日志文本集合中随机选择预设数量的日志文本,得到第一数据集合;对所述第一数据集合中的日志文本进行多次聚类,得到多个初始K值,并依据所述多个初始K值,确定第一K值;以所述第一K值为中心,确定数值选择范围,并依据所述数值选择范围,确定N个所述候选K值;基于N个所述候选K值,生成所述候选K值集合。3.根据权利要求1所述的方法,其特征在于,依据N个所述候选K值对日志文本集合中的日志文本进行聚类,得到N个聚类结果包括:对于每个所述候选K值,在所述日志文本集合中确定该候选K值对应的K个质心;依据所述K个质心对所述日志文本集合中的日志文本进行聚类,得到该候选K值对应的聚类结果;综合所有的所述候选K值对应的聚类结果,得到所述N个聚类结果。4.根据权利要求3所述的方法,其特征在于,对于每个所述候选K值,在所述日志文本集合中确定该候选K值对应的K个质心包括:对所述日志文本集合中日志文本之间的余弦距离进行计算,得到每个所述日志文本对应的余弦距离集合;对每个所述日志文本对应的余弦距离集合中小于预设阈值的余弦距离的数量进行计算,得到每个所述日志文本的密度;依据每个所述日志文本的密度,在所述日志文本集合中确定该候选K值对应的K个质心。5.根据权利要求4所述的方法,其特征在于,依据每个所述日志文本的密度,在所述日志文本集合中确定该候选K值对应的K个质心包括:依据每个所述日志文本的密度对所述日志文本集合中的日志文本进行排序,并将次序为第一位的第一日志文本确定为第一质心;依据所述日志文本集合中除所述第一日志文本之外的日志文本与所述第一日志文本的余弦距离,确定第二日志文本,并将所述第二日志文本确定为第二质心;依据所述日志文本集合中的日志文本与所述第一质心的余弦距离和所述日志文本集合中的日志文本与所述第二质心的余弦距离,确定每个日志文本的目标余弦距离,并依据...

【专利技术属性】
技术研发人员:程永龙王钰范淑君王睿
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1