【技术实现步骤摘要】
基于分布式分裂融合的初始化kmeans日志分类方法
[0001]本申请涉及大数据
,尤其涉及一种基于分布式分裂融合的初始化kmeans日志分类方法、装置、设备和存储介质。
技术介绍
[0002]用户在使用应用程序的过程中由于其个人习惯可能会导致应用程序产生错误,这些错误都会被应用程序的日志记录,在分析各用户在使用应用程序过程中发生的错误问题时,需要将错误类型相同的日志划分到一个组里,然后分门别类的去挖掘用户使用的习惯的可能存在的错误方法,由此以对后续遇到类似问题给出针对性的建议。
[0003]目前现有技术通常是采用k均值聚类算法(K
‑
means clustering algorithm,简称kmeans聚类算法)进行文本聚类,其在初始化阶段存在一个步骤就是将数据分为K组,然后随机在每个组中选取一个对象作为该组的初始聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
[0004]但是,现有的K
‑
means聚类算法在初始化阶段进行随机抽取初始质心,这样会导致聚类收敛速度缓慢且聚类效果不好。
技术实现思路
[0005]本申请提供一种基于分布式分裂融合的初始化kmeans日志分类方法,用以解决目前kmeans聚类算法聚类速度慢效果差的问题。
[0006]第一方面,本申请提供一种基于分布式分裂融合的初始化kmeans日志分类方法,该方法包括:
[0007]获取N个日志样本集合,对每个日志样本 ...
【技术保护点】
【技术特征摘要】
1.一种基于分布式分裂融合的初始化kmeans日志分类方法,其特征在于,包括:获取N个日志样本集合,对每个日志样本集合进行备份,得到该日志样本集合对应的副本,所述日志样本集合中包括至少一个日志样本,N为正整数;对每个日志样本集合中的日志样本进行筛选删除,确定出每个日志样本集合中的K个中心,K为正整数;根据每个日志样本集合中的K个中心,确定该日志样本集合的副本中的K个中心和该副本的K个簇;获取每个副本中的每个簇的误差函数,根据该簇的误差函数,对该簇进行分裂处理;获取分裂处理后的簇,组成簇集合;根据簇集合中各个簇的簇中心之间的余弦距离,对各个簇进行融合,直到所有的簇的簇中心的距离都满足预设条件;获取该簇集合中的簇中心,作为初始质心,进行Kmeans聚类。2.根据权利要求1所述的方法,其特征在于,所述获取N个日志样本集合,包括:获取初始日志集合,所述初始日志集合中包括至少一个日志样本;将所述初始日志集合均分得到N个日志样本集合。3.根据权利要求1所述的方法,其特征在于,所述对每个日志样本集合中的日志样本进行筛选删除,确定出每个日志样本集合中的K个中心,包括:从该日志样本集合中随机选取第一样本Cn1,删除该日志样本集合中与该第一样本Cn1的余弦距离小于第一预设阈值的第一日志样本;获取所有被删除的第一日志样本,并确定所有被删除的第一日志样本的中心,作为第一个中心;从该日志样本集合中随机选取第二样本Cn2,删除该日志样本集合中与该第二样本Cn2的余弦距离小于所述第一预设阈值的第二日志样本;获取所有被删除的第二日志样本,并确定所有被删除的第二日志样本的中心,作为第二个中心;从该日志样本集合中随机选取第K样本Cnk,删除该日志样本集合中与该第K样本Cnk的余弦距离小于所述第一预设阈值的第K日志样本;获取所有被删除的第K日志样本,并确定所有被删除的第k日志样本的中心,作为第K个中心。4.根据权利要求1所述的方法,其特征在于,所述根据每个日志样本集合中的K个中心,确定该日志样本集合的副本中的K个中心和该副本的K个簇,包括:根据每个日志样本集合中的K个中心,确定该日志样本集合的副本中的K个中心;计算该日志样本集合的副本中每个日志样本与该副本中每个中心之间的余弦距离;将该副本中与第K个中心余弦距离最近的日志样本和该第K个中心划分到同一个簇中,得到该副本的K个簇。5.根据权利要求1所述的方法,其特征在于,所述获取每个副本中的每个簇的误差函数,根据该簇的误差函数,对该簇进行分裂处理,包括:计算每个簇中每个日志样本与该簇中心的余弦距离的平方值并求和,得到该簇的误差函数;
将该簇的误差函数与第一预设阈值对比;若该簇的误差函数大于所述第一预设阈值,则对该簇进行分裂,得到分裂后的两个簇;若该簇的误差函数小于或等于所述第一预设阈值,则保留该簇。6.根据权利要求5所述的方法,其特征在于,所...
【专利技术属性】
技术研发人员:程永龙,王钰,范淑君,王睿,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。