【技术实现步骤摘要】
基于隔断距离融合的kmeans日志分类方法和装置
[0001]本申请涉及大数据
,尤其涉及一种基于隔断距离融合的kmeans日志分类方法和装置。
技术介绍
[0002]应用程序在使用过程中,由于用户的错误行为容易导致程序错误,在程序出现错误之后通常会通过通过日志记录下来,通过对错误日志进行分析可以找到对应的解决方案。但是基于所产生的错误的不同,错误日志往往可以分为不同的类型,为此就需要对海量的错误日志进行聚类,将同一类型的错误日志聚类到同一组以便于分析。
[0003]目前,现有技术主要使用的是Kmeans聚类算法,该聚类算法在初始化阶段进行随机抽取初始质心,然后计算每个对象与该初始质心的距离,把每个分配给距离它最近的聚类中心。
[0004]但是,这种随机选取初始质心的方式,会导致最终的聚类效果差。
技术实现思路
[0005]本申请提供一种一种基于隔断距离融合的kmeans日志分类方法和装置,用以解决Kmeans聚类效果差的问题。
[0006]第一方面,本申请提供一种基于隔断距离融 ...
【技术保护点】
【技术特征摘要】
1.一种基于隔断距离融合的kmeans日志分类方法,其特征在于,包括:获取日志样本集合、所述日志样本集合的中心、所述日志样本集合的样本平均距离和所述日志样本集合中每个日志样本的样本密度,所述日志样本集合包括至少两个日志样本;从所述日志样本集合中挑选出与所述中心的余弦距离在第一距离范围内的日志样本,组成第一样本集合,并根据样本密度,从所述第一样本集合中选取出第一日志样本,加入至中心集合中;根据K的取值,从所述日志样本集合中挑选出与所述第一日志样本的余弦距离在第K距离范围内的日志样本,组成第K样本集合,并根据样本密度,从第K样本集合中选取出第K日志样本,加入至中心集合中,K取值依次为[1,K],K为大于1的整数;对中心集合中日志样本进行融合,直到中心集合中的日志样本数量为K个;将融合后的中心集合中的K个日志样本作为初始质心,进行kmeans聚类。2.根据权利要求1所述的方法,其特征在于,获取所述日志样本集合的中心,包括:计算所述日志样本集合中各个日志样本之间的余弦距离,从中挑选出余弦距离最大的两个日志样本;计算所述余弦距离最大的两个日志样本的中心,作为该日志样本集合的中心。3.根据权利要求1所述的方法,其特征在于,获取所述日志样本集合的样本平均距离,包括:计算所述日志样本集合中各个日志样本之间的余弦距离并求和,得到累加和;将所述累加和与所述日志样本集合中日志样本的总数量的平方相除,得到所述样本平均距离。4.根据权利要求1所述的方法,其特征在于,所述获取所述日志样本集合中每个日志样本的样本密度,包括:计算所述日志样本集合中与该日志样本的余弦距离小于所述样本平均距离的日志样本的总数量,作为该日志样本的样本密度。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取第一系数阈值和第一常数阈值;根据所述第一系数阈值、第一常数阈值和所述样本平均距离,计算得到第一距离范围。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取第二系数阈值、第二常数阈值和所需选定的初始质心的数量;根据所述第二系数阈值、第二常数阈值和所需选定的初始质心的数量,计算得到第K距离范围。7.根据权利要求1所述的方法,其特征在于,所述从所述第一样本集合中选取出第一日志样本,包括:获取所述第一样本集合中各个日志样本的样本密度;在所述第一样本集合中选取出样本密度最大的日志样本,作为所述第一日志样本。8.根据权利要求1所述的方法,其特征在于,所述从第K样本集合中选取出第K日志样...
【专利技术属性】
技术研发人员:程永龙,王钰,范淑君,王睿,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。