基于多粒度过滤的日志数据收集方法及系统技术方案

技术编号:29757130 阅读:22 留言:0更新日期:2021-08-20 21:10
本发明专利技术公开了基于多粒度过滤的日志数据收集方法及系统,包括以下,获取已有的日志数据,确定已有的日志数据的聚类个数C,并从已有的日志数据中随机挑选相应的C个日志数据作为C个聚类数的聚类中心v

【技术实现步骤摘要】
基于多粒度过滤的日志数据收集方法及系统
本公开涉及数据处理
,具体涉及基于多粒度过滤的日志数据收集方法及系统。
技术介绍
用户终端在运作时都会产生一个叫log的事件记录;每一行日志都记载着日期、时间、使用者及动作等相关操作的描述,日志包括很多种类,如应用程序日志、安全日志、系统日志等等。用户在用户终端上进行操作时,这些日志文件通常会记录下用户操作的一些相关内容,这些内容对系统安全工作人员相当有用。举例来讲,有人对系统进行了IPC探测,系统就会在安全日志里迅速地记下探测者探测时所用的IP、时间、用户名等,用FTP探测后,就会在FTP日志中记下IP、时间、探测所用的用户名等。现有的日志数据往往通过人工进行归类整理,这无疑是一个庞大的工作,需要大量的人力物力,甚至对于一些归类粒度复杂的日志来说,人工处理就更为麻烦了。
技术实现思路
本公开提供基于多粒度过滤的日志数据收集方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。为了实现上述目的,根据本公开的一方面,提供基于多粒度过滤的日志数据收集方法,所述方法包括以下步骤:S100,获取已有的日志数据,确定已有的日志数据的聚类个数C,并从已有的日志数据中随机挑选相应的C个日志数据作为C个聚类数的聚类中心vi,i∈[1,C];S200,计算所有的已有的日志数据到每个聚类中心的距离dij,并将每个日志数据归于与其计算距离最小的聚类中心对应的类别中,形成C个数据类别;S300,将每个数据类别中的数据的特征值进行平均以得到更新的聚类中心vi";S400,重复步骤S200-S300直到聚类中心趋于稳定,最终形成C个稳定的数据类别;S500,获取未知的日志数据,计算未知的日志数据与C个稳定的数据类别的欧氏距离范数得到C个距离dq,其中q∈[1,C];S600,提取C个距离中距离最小的k个距离对应的稳定的数据类别;S700,计算未知的日志数据与k个距离对应的稳定的数据类别之间的隶属度,选取隶属度计算值最高的的数据类别,将未知的日志数据存入该数据类别中。进一步,上述步骤S300中计算得到更新的聚类中心vi"的方法具体包括以下,将已有的日志数据设为数据集X={X1,X2,...,Xn},其中每个数据对象Xj具备s个属性,即Xj={Xj1,Xj2,...,Xjs},其中Xjk是数据对象Xj的第k维属性,k取[1,s];每个特征值的计算公式如下,已有的日志数据到每个聚类中心的距离为欧氏距离,具体通过计算欧式距离的相关公式计算得出。进一步,上述步骤S400中对于聚类中心趋于稳定的判定条件为,为每个数据类别设定目标函数J,其中,dij为第i个聚类中心vi与第j个数据对象Xj的欧式距离。进一步,上述步骤S700中计算未知的日志数据与k个距离对应的稳定的数据类别之间的隶属度的相关计算公式具体包括以下,其中wi为权重调节因子,其计算公式如下,diu指的是稳定的数据类别之间距离;其中M表示未知的日志数据最终确定的稳定的数据类别,C表示数据类别总数,b为调整参数,人为设定,b∈[0,1]。本专利技术还提出基于多粒度过滤的日志数据收集系统,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:已有的日志数据分类单元,用于获取已有的日志数据,确定已有的日志数据的聚类个数C,并从已有的日志数据中随机挑选相应的C个日志数据作为C个聚类数的聚类中心vi,i∈[1,C];数据类别生成单元,用于计算所有的已有的日志数据到每个聚类中心的距离dij,并将每个日志数据归于与其计算距离最小的聚类中心对应的类别中,形成C个数据类别;聚类中心更新单元,用于将每个数据类别中的数据的特征值进行平均以得到更新的聚类中心vi";稳定的数据类别生成单元,用于重复执行数据类别生成单元以及聚类中心更新单元直到聚类中心趋于稳定,最终形成C个稳定的数据类别;未知的日志数据获取单元,用于获取未知的日志数据,计算未知的日志数据与C个稳定的数据类别的欧氏距离范数得到C个距离dq,其中q∈[1,C];提取单元,用于提取C个距离中距离最小的k个距离对应的稳定的数据类别;未知的日志数据的分类单元,用于计算未知的日志数据与k个距离对应的稳定的数据类别之间的隶属度,选取隶属度计算值最高的的数据类别,将未知的日志数据存入该数据类别中。本公开的有益效果为:本专利技术提供基于多粒度过滤的日志数据收集方法及系统,通过对已有的日志数据进行聚类算法的处理进行类别的确定,对于后续的未知的日志数据经过隶属度的计算归于已经确定的类别中,能够较佳的对复杂的日志数据进行归类,方便了日志数据的管理。附图说明通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:图1所示为基于多粒度过滤的日志数据收集方法的流程图。具体实施方式以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。如图1所示为根据本公开的基于多粒度过滤的日志数据收集方法的流程图,下面结合图1来阐述根据本公开的实施方式的基于多粒度过滤的日志数据收集方法。本公开提出基于多粒度过滤的日志数据收集方法,所述方法包括以下步骤:S100,获取已有的日志数据,确定已有的日志数据的聚类个数C,并从已有的日志数据中随机挑选相应的C个日志数据作为C个聚类数的聚类中心vi,i∈[1,C];S200,计算所有的已有的日志数据到每个聚类中心的距离dij,并将每个日志数据归于与其计算距离最小的聚类中心对应的类别中,形成C个数据类别;S300,将每个数据类别中的数据的特征值进行平均以得到更新的聚类中心vi";S400,重复步骤S200-S300直到聚类中心趋于稳定,最终形成C个稳定的数据类别;S500,获取未知的日志数据,计算未知的日志数据与C个稳定的数据类别的欧氏距离范数得到C个距离dq,其中q∈[1,C];S600,提取C个距离中距离最小的k个距离对应的稳定的数据类别;S700,计算未知的日志数据与k个距离对应的稳定的数据类别之间的隶属度,选取隶属度计算值最高的的数据类别,将未知的日志数据存入该数据类别中。本实施方式通过对已有的日志数据进行聚类算法的处理进行类别的确定,对于后续的未知的日志本文档来自技高网...

【技术保护点】
1.基于多粒度过滤的日志数据收集方法,其特征在于,所述方法包括以下步骤:/nS100,获取已有的日志数据,确定已有的日志数据的聚类个数C,并从已有的日志数据中随机挑选相应的C个日志数据作为C个聚类数的聚类中心v

【技术特征摘要】
1.基于多粒度过滤的日志数据收集方法,其特征在于,所述方法包括以下步骤:
S100,获取已有的日志数据,确定已有的日志数据的聚类个数C,并从已有的日志数据中随机挑选相应的C个日志数据作为C个聚类数的聚类中心vi,i∈[1,C];
S200,计算所有的已有的日志数据到每个聚类中心的距离dij,并将每个日志数据归于与其计算距离最小的聚类中心对应的类别中,形成C个数据类别;
S300,将每个数据类别中的数据的特征值进行平均以得到更新的聚类中心vi";
S400,重复步骤S200-S300直到聚类中心趋于稳定,最终形成C个稳定的数据类别;
S500,获取未知的日志数据,计算未知的日志数据与C个稳定的数据类别的欧氏距离范数得到C个距离dq,其中q∈[1,C];
S600,提取C个距离中距离最小的k个距离对应的稳定的数据类别;
S700,计算未知的日志数据与k个距离对应的稳定的数据类别之间的隶属度,选取隶属度计算值最高的的数据类别,将未知的日志数据存入该数据类别中。


2.根据权利要求1所述的基于多粒度过滤的日志数据收集方法,其特征在于,上述步骤S300中计算得到更新的聚类中心vi"的方法具体包括以下,
将已有的日志数据设为数据集X={X1,X2,...,Xn},其中每个数据对象Xj具备s个属性,即Xj={Xj1,Xj2,...,Xjs},其中Xjk是数据对象Xj的第k维属性,k取[1,s];
每个特征值的计算公式如下,



已有的日志数据到每个聚类中心的距离为欧氏距离,具体通过计算欧式距离的相关公式计算得出。


3.根据权利要求1所述的基于多粒度过滤的日志数据收集方法,其特征在于,上述步骤S400中对于聚类中心趋于稳定的判定条件为,
为每个数据类别设定目标函数J,



其中,dij为第i个聚类中心vi与第j...

【专利技术属性】
技术研发人员:李保平杨建荣龙磊
申请(专利权)人:广州汇通国信科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1