基于分布式分裂融合的初始化kmeans日志分类方法技术

技术编号:38510541 阅读:9 留言:0更新日期:2023-08-19 16:55
本申请提供一种的基于分布式分裂融合的初始化kmeans日志分类方法,涉及大数据领域。该方法包括:获取N个日志样本集合和该日志样本集合对应的副本;确定出每个日志样本集合中的K个中心;并对该日志样本集合的副本中的日志样本进行簇划分,得到该副本的K个簇;获取每个副本中的每个簇的误差函数,根据该簇的误差函数,对该簇进行分裂处理;获取分裂处理后的簇,组成簇集合;根据簇集合中各个簇的簇中心之间的余弦距离,对各个簇进行融合,直到所有的簇的簇中心的距离都满足预设条件;获取该簇集合中的簇中心作为初始质心,进行Kmeans聚类。本方法提高了kmeans聚类算法聚类速度和效果。果。果。

【技术实现步骤摘要】
基于分布式分裂融合的初始化kmeans日志分类方法


[0001]本申请涉及大数据
,尤其涉及一种基于分布式分裂融合的初始化kmeans日志分类方法、装置、设备和存储介质。

技术介绍

[0002]用户在使用应用程序的过程中由于其个人习惯可能会导致应用程序产生错误,这些错误都会被应用程序的日志记录,在分析各用户在使用应用程序过程中发生的错误问题时,需要将错误类型相同的日志划分到一个组里,然后分门别类的去挖掘用户使用的习惯的可能存在的错误方法,由此以对后续遇到类似问题给出针对性的建议。
[0003]目前现有技术通常是采用k均值聚类算法(K

means clustering algorithm,简称kmeans聚类算法)进行文本聚类,其在初始化阶段存在一个步骤就是将数据分为K组,然后随机在每个组中选取一个对象作为该组的初始聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
[0004]但是,现有的K

means聚类算法在初始化阶段进行随机抽取初始质心,这样会导致聚类收敛速度缓慢且聚类效果不好。

技术实现思路

[0005]本申请提供一种基于分布式分裂融合的初始化kmeans日志分类方法,用以解决目前kmeans聚类算法聚类速度慢效果差的问题。
[0006]第一方面,本申请提供一种基于分布式分裂融合的初始化kmeans日志分类方法,该方法包括:
[0007]获取N个日志样本集合,对每个日志样本集合进行备份,得到该日志样本集合对应的副本,所述日志样本集合中包括至少一个日志样本,N为正整数;
[0008]对每个日志样本集合中的日志样本进行筛选删除,确定出每个日志样本集合中的K个中心,K为正整数;
[0009]根据每个日志样本集合中的K个中心,确定该日志样本集合的副本中的K个中心和该副本的K个簇;
[0010]获取每个副本中的每个簇的误差函数,根据该簇的误差函数,对该簇进行分裂处理;
[0011]获取分裂处理后的簇,组成簇集合;
[0012]根据簇集合中各个簇的簇中心之间的余弦距离,对各个簇进行融合,直到所有的簇的簇中心的距离都满足预设条件;
[0013]获取该簇集合中的簇中心,作为初始质心,进行Kmeans聚类。
[0014]第二方面,本申请提供一种基于分布式分裂融合的初始化kmeans日志分类装置,包括:
[0015]获取模块,用于获取N个日志样本集合,对每个日志样本集合进行备份,得到该日
志样本集合对应的副本,所述日志样本集合中包括至少一个日志样本,N为正整数;
[0016]中心确定模块,用于对每个日志样本集合中的日志样本进行筛选删除,确定出每个日志样本集合中的K个中心,K为正整数;
[0017]簇划分模块,用于根据每个日志样本集合中的K个中心,确定该日志样本集合的副本中的K个中心和该副本的K个簇;
[0018]簇分裂模块,用于获取每个副本中的每个簇的误差函数,根据该簇的误差函数,对该簇进行分裂处理;
[0019]簇集合模块,用于获取分裂处理后的簇,组成簇集合;
[0020]簇融合模块,用于根据簇集合中各个簇的簇中心之间的余弦距离,对各个簇进行融合,直到所有的簇的簇中心的距离都满足预设条件;
[0021]聚类模块,用于获取该簇集合中的簇中心,作为初始质心,进行Kmeans聚类。
[0022]第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如上述的方法。
[0023]第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的方法。
[0024]第五方面,本申请一种计算机程序产品,该计算机程序产品被处理器执行时用于实现如上述的方法。
[0025]本申请提供的基于分布式分裂融合的初始化kmeans日志分类方法,通过将海量的日志样本划分为N个不同的日志样本集合,可以分布式并行的对日志样本进行处理,减少初始化的时间,同时对日志样本集合中的簇进行分裂融合处理,可以更加准确的选取出初始质心,实现了对kmeans聚类算法初始化阶段的改进,能够提高聚类的效果以及提高收敛速度,减少聚类所花费的时间。
附图说明
[0026]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0027]图1为本申请实施例提供的聚类效果图;
[0028]图2为本申请实施例提供的基于分布式分裂融合的初始化kmeans日志分类方法的流程示意图;
[0029]图3为本申请实施例提供的对日志样本进行簇划分的效果示意图;
[0030]图4为本申请实施例提供的基于分布式分裂融合的初始化kmeans日志分类方法的整体流程图;
[0031]图5为本申请实施例提供的基于分布式分裂融合的初始化kmeans日志分类装置的结构示意图;
[0032]图6为本申请实施例提供的电子设备的结构示意图。
[0033]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
[0034]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0035]需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0036]需要说明的是,本申请提供的基于分布式分裂融合的初始化kmeans日志分类方法、装置、设备和存储介质可用于大数据
,也可用于除大数据
之外的任意领域,本申请提供的基于分布式分裂融合的初始化kmeans日志分类方法、装置、设备和存储介质的应用领域不作限定。
[0037]K均值聚类算法(k

means clustering algorithm):是一种可用于文本聚类的聚类算法,其在初始化阶段存在一个步骤就是将数据分为K组,然后随机在每个组中选取一个对象作为该组的初始聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布式分裂融合的初始化kmeans日志分类方法,其特征在于,包括:获取N个日志样本集合,对每个日志样本集合进行备份,得到该日志样本集合对应的副本,所述日志样本集合中包括至少一个日志样本,N为正整数;对每个日志样本集合中的日志样本进行筛选删除,确定出每个日志样本集合中的K个中心,K为正整数;根据每个日志样本集合中的K个中心,确定该日志样本集合的副本中的K个中心和该副本的K个簇;获取每个副本中的每个簇的误差函数,根据该簇的误差函数,对该簇进行分裂处理;获取分裂处理后的簇,组成簇集合;根据簇集合中各个簇的簇中心之间的余弦距离,对各个簇进行融合,直到所有的簇的簇中心的距离都满足预设条件;获取该簇集合中的簇中心,作为初始质心,进行Kmeans聚类。2.根据权利要求1所述的方法,其特征在于,所述获取N个日志样本集合,包括:获取初始日志集合,所述初始日志集合中包括至少一个日志样本;将所述初始日志集合均分得到N个日志样本集合。3.根据权利要求1所述的方法,其特征在于,所述对每个日志样本集合中的日志样本进行筛选删除,确定出每个日志样本集合中的K个中心,包括:从该日志样本集合中随机选取第一样本Cn1,删除该日志样本集合中与该第一样本Cn1的余弦距离小于第一预设阈值的第一日志样本;获取所有被删除的第一日志样本,并确定所有被删除的第一日志样本的中心,作为第一个中心;从该日志样本集合中随机选取第二样本Cn2,删除该日志样本集合中与该第二样本Cn2的余弦距离小于所述第一预设阈值的第二日志样本;获取所有被删除的第二日志样本,并确定所有被删除的第二日志样本的中心,作为第二个中心;从该日志样本集合中随机选取第K样本Cnk,删除该日志样本集合中与该第K样本Cnk的余弦距离小于所述第一预设阈值的第K日志样本;获取所有被删除的第K日志样本,并确定所有被删除的第k日志样本的中心,作为第K个中心。4.根据权利要求1所述的方法,其特征在于,所述根据每个日志样本集合中的K个中心,确定该日志样本集合的副本中的K个中心和该副本的K个簇,包括:根据每个日志样本集合中的K个中心,确定该日志样本集合的副本中的K个中心;计算该日志样本集合的副本中每个日志样本与该副本中每个中心之间的余弦距离;将该副本中与第K个中心余弦距离最近的日志样本和该第K个中心划分到同一个簇中,得到该副本的K个簇。5.根据权利要求1所述的方法,其特征在于,所述获取每个副本中的每个簇的误差函数,根据该簇的误差函数,对该簇进行分裂处理,包括:计算每个簇中每个日志样本与该簇中心的余弦距离的平方值并求和,得到该簇的误差函数;
将该簇的误差函数与第一预设阈值对比;若该簇的误差函数大于所述第一预设阈值,则对该簇进行分裂,得到分裂后的两个簇;若该簇的误差函数小于或等于所述第一预设阈值,则保留该簇。6.根据权利要求5所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:程永龙王钰范淑君王睿
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1