基于半监督的密度筛选Kmeans异常日志检索方法技术

技术编号:38545120 阅读:9 留言:0更新日期:2023-08-22 20:55
本申请提供一种基于半监督的密度筛选Kmeans异常日志检索方法和装置,涉及大数据领域。该方法包括:将日志样本集中的日志样本划分为K个簇,每个簇中至少包括有一个作为质心的日志样本;确定该簇中的边缘日志样本和该簇的质心与该边缘日志样本的余弦角度、阈值角度;根据该簇中每个日志样本与该簇的质心的余弦角度、阈值角度,在该簇的所有日志样本中筛选出符合预设角度条件的日志样本,作为非稳定日志样本;将所有非稳定日志样本组合形成目标样本集合,在目标样本集合中确定出异常的日志样本。本申请的方法能够缩小异常日志检索范围,提高异常日志的检索效率和准确性。提高异常日志的检索效率和准确性。提高异常日志的检索效率和准确性。

【技术实现步骤摘要】
基于半监督的密度筛选Kmeans异常日志检索方法


[0001]本申请涉及大数据领域,尤其涉及一种基于半监督的密度筛选Kmeans异常日志检索方法和装置。

技术介绍

[0002]日志是计算机领域术语,应用平台在运作时都会产生日志;每行日志都记载着日期、时间、使用者及动作等相关操作的描述。应用平台在正常运行时产生的都是常规日志,当应用平台出现问题时,容易产生异常日志。这些异常日志对于预防分析应用平台潜在产生的问题有着重要的作用,便于发现新的问题类别,有利于形成针对此类问题的规避措施,利于应用平台的维护与治理。
[0003]现有技术中,异常日志的检索主要依靠聚类算法,使用文本聚类对日志进行聚类,找出不属于任何簇的日志样本作为异常日志。
[0004]但是,现有的这种聚类方式,不好精细的挑选出不属于任何簇的样本,而且也很难较准确的发现异常点,聚类效果差,导致异常日志检索准确性低。

技术实现思路

[0005]本申请提供一种基于半监督的密度筛选Kmeans异常日志检索方法和装置,用以解决目前从海量日志中无法准确检索出异常日志的问题。
[0006]第一方面,本申请提供一种基于半监督的密度筛选Kmeans异常日志检索方法,包括:
[0007]获取日志样本集,将日志样本集中的日志样本划分为K个簇,所述日志样本集中包括至少K个日志样本,每个簇中至少包括有一个作为质心的日志样本,K为正整数;
[0008]确定该簇中的边缘日志样本和该簇的质心与该边缘日志样本的余弦角度;
[0009]根据该簇的质心与该边缘日志样本的余弦角度,确定阈值角度;
[0010]获取该簇中每个日志样本与该簇的质心的余弦角度,根据该簇中每个日志样本与该簇的质心的余弦角度、所述阈值角度,在该簇的所有日志样本中筛选出符合预设角度条件的日志样本,作为非稳定日志样本;
[0011]将所有非稳定日志样本组合形成目标样本集合,在所述目标样本集合中确定出异常的日志样本。
[0012]第二方面,本申请提供一种基于半监督的密度筛选Kmeans异常日志检索装置,包括:
[0013]日志分簇模块,用于获取日志样本集,将日志样本集中的日志样本划分为K个簇,所述日志样本集中包括至少K个日志样本,每个簇中至少包括有一个作为质心的日志样本,K为正整数;
[0014]余弦角度确定模块,用于确定该簇中的边缘日志样本和该簇的质心与该边缘日志样本的余弦角度;
[0015]阈值角度确定模块,用于根据该簇的质心与该边缘日志样本的余弦角度,确定阈值角度;
[0016]非稳定日志样本确定模块,用于获取该簇中每个日志样本与该簇的质心的余弦角度,根据该簇中每个日志样本与该簇的质心的余弦角度、所述阈值角度,在该簇的所有日志样本中筛选出符合预设角度条件的日志样本,作为非稳定日志样本;
[0017]异常样本确定模块,用于将所有非稳定日志样本组合形成目标样本集合,在所述目标样本集合中确定出异常的日志样本。
[0018]第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如上述的方法。
[0019]第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的方法。
[0020]第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法。
[0021]本申请提供的基于半监督的密度筛选Kmeans异常日志检索方法和装置,通过找到距离簇质心最远的边缘日志样本,并计算出簇质心与边缘日志样本的余弦角度A,然后基于余弦角度A来确定出非稳定样本集合,基于非稳定样本集合,能够缩小异常日志检索范围,提高异常日志的检索效率和准确性。
附图说明
[0022]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0023]图1为本申请实施例提供的聚类算法的示意图;
[0024]图2为本申请实施例提供的基于半监督的密度筛选Kmeans异常日志检索方法的流程示意图;
[0025]图3为本申请实施例提供的日志样本示意图;
[0026]图4为本申请实施例提供的基于半监督的密度筛选Kmeans异常日志检索方法的流程示意图;
[0027]图5为本申请实施例提供的基于半监督的密度筛选Kmeans异常日志检索装置的结构示意图;
[0028]图6为本申请实施例提供的电子设备的结构示意图。
[0029]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
[0030]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附
权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0031]需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0032]需要说明的是,本申请提供的基于半监督的密度筛选Kmeans异常日志检索方法和装置可用于大数据领域,也可用于除大数据之外的任意领域,本申请提供的基于半监督的密度筛选Kmeans异常日志检索方法和装置的应用领域不作限定。
[0033]K均值聚类算法(k

means clustering algorithm):是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类。
[0034]异常日志检测旨在找出不属于常规分类的日志,这类日志相比日志整体的量来看一般是少数的,正因为少数特殊另类,对于预防分析应用平台潜在产生的问题有着重要的作用,便于发现新的问题类别,有利于形成针对此类问题的规避措施,利于应用平台的维护与治理。传统的kmeans聚类算法在初始化阶段进行随机抽取初始质心,这样会导致抽取的质心本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于半监督的密度筛选Kmeans异常日志检索方法,其特征在于,包括:获取日志样本集,将日志样本集中的日志样本划分为K个簇,所述日志样本集中包括至少K个日志样本,每个簇中至少包括有一个作为质心的日志样本,K为正整数;确定该簇中的边缘日志样本和该簇的质心与该边缘日志样本的余弦角度;根据该簇的质心与该边缘日志样本的余弦角度,确定阈值角度;获取该簇中每个日志样本与该簇的质心的余弦角度,根据该簇中每个日志样本与该簇的质心的余弦角度、所述阈值角度,在该簇的所有日志样本中筛选出符合预设角度条件的日志样本,作为非稳定日志样本;将所有非稳定日志样本组合形成目标样本集合,在所述目标样本集合中确定出异常的日志样本。2.根据权利要求1所述的方法,其特征在于,所述将日志样本集中的日志样本划分为K个簇,包括:从日志样本集中选取出K个不同类别的日志样本,作为初始化指定的K个质心;计算日志样本集中每个日志样本与初始化指定的K个质心的余弦距离;根据每个日志样本与每个质心的余弦距离,将日志样本集中每个日志样本划分至不同的簇中,得到K个簇。3.根据权利要求1所述的方法,其特征在于,所述确定该簇中的边缘日志样本,包括:计算该簇中的每个日志样本与该簇的质心的余弦距离;获取该簇中与该簇的质心余弦距离最大的日志样本,作为所述边缘日志样本。4.根据权利要求1所述的方法,其特征在于,所述确定该簇的质心与该边缘日志样本的余弦角度,包括:获取该簇的质心的模和边缘日志样本的模;计算该簇的质心与该边缘日志样本的余弦距离;根据该簇的质心的模、该边缘日志样本的模、该簇的质心与该边缘日志样本的余弦距离和预设计算公式,计算得到该簇的质心与该边缘日志样本的余弦角度。5.根据权利要求4所述的方法,其特征在于,所述预设计算公式为:余弦距离=簇质心的模*边缘点的模*cosA上式中,A为余弦角度。6.根据权利要求1所述的方法,其特征在于,所述根据该簇中每个日志样本与该簇的质心的余弦角度、所述阈值角度,在该簇的所有日志样本中筛选出符合预设角度条件的日志样本,作为非稳定日志样本,包括:将阈值角度、该簇中每个日志样本与该簇的质心的余弦角度对比;若该簇中该日志样本与该簇的质心的余弦角度大于或等于所述阈值角度,则确定该日志样本符合预设角度条件,并将该日志样本作为非稳定日志样本。7.根据权利要求1所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:程永龙王钰范淑君王睿
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1