基于多粒度过滤的日志数据收集方法及系统技术方案

技术编号：29757130 阅读：22 留言：0更新日期：2021-08-20 21:10

本发明专利技术公开了基于多粒度过滤的日志数据收集方法及系统，包括以下，获取已有的日志数据，确定已有的日志数据的聚类个数C，并从已有的日志数据中随机挑选相应的C个日志数据作为C个聚类数的聚类中心v

全部详细技术资料下载

【技术实现步骤摘要】
基于多粒度过滤的日志数据收集方法及系统
本公开涉及数据处理
，具体涉及基于多粒度过滤的日志数据收集方法及系统。
技术介绍
用户终端在运作时都会产生一个叫log的事件记录；每一行日志都记载着日期、时间、使用者及动作等相关操作的描述，日志包括很多种类，如应用程序日志、安全日志、系统日志等等。用户在用户终端上进行操作时，这些日志文件通常会记录下用户操作的一些相关内容，这些内容对系统安全工作人员相当有用。举例来讲，有人对系统进行了IPC探测，系统就会在安全日志里迅速地记下探测者探测时所用的IP、时间、用户名等，用FTP探测后，就会在FTP日志中记下IP、时间、探测所用的用户名等。现有的日志数据往往通过人工进行归类整理，这无疑是一个庞大的工作，需要大量的人力物力，甚至对于一些归类粒度复杂的日志来说，人工处理就更为麻烦了。
技术实现思路
本公开提供基于多粒度过滤的日志数据收集方法及系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。为了实现上述目的，根据本公开的一方面，提供基于多粒度过滤的日志数据收集方法，所述方法包括以下步骤：S100，获取已有的日志数据，确定已有的日志数据的聚类个数C，并从已有的日志数据中随机挑选相应的C个日志数据作为C个聚类数的聚类中心vi，i∈[1，C]；S200，计算所有的已有的日志数据到每个聚类中心的距离dij，并将每个日志数据归于与其计算距离最小的聚类中心对应的类别中，形成C个数据类别；S300，将每个...

【技术保护点】
1.基于多粒度过滤的日志数据收集方法，其特征在于，所述方法包括以下步骤：/nS100，获取已有的日志数据，确定已有的日志数据的聚类个数C，并从已有的日志数据中随机挑选相应的C个日志数据作为C个聚类数的聚类中心v

【技术特征摘要】
1.基于多粒度过滤的日志数据收集方法，其特征在于，所述方法包括以下步骤：
S100，获取已有的日志数据，确定已有的日志数据的聚类个数C，并从已有的日志数据中随机挑选相应的C个日志数据作为C个聚类数的聚类中心vi，i∈[1，C]；
S200，计算所有的已有的日志数据到每个聚类中心的距离dij，并将每个日志数据归于与其计算距离最小的聚类中心对应的类别中，形成C个数据类别；
S300，将每个数据类别中的数据的特征值进行平均以得到更新的聚类中心vi"；
S400，重复步骤S200-S300直到聚类中心趋于稳定，最终形成C个稳定的数据类别；
S500，获取未知的日志数据，计算未知的日志数据与C个稳定的数据类别的欧氏距离范数得到C个距离dq，其中q∈[1，C]；
S600，提取C个距离中距离最小的k个距离对应的稳定的数据类别；
S700，计算未知的日志数据与k个距离对应的稳定的数据类别之间的隶属度，选取隶属度计算值最高的的数据类别，将未知的日志数据存入该数据类别中。

2.根据权利要求1所述的基于多粒度过滤的日志数据收集方法，其特征在于，上述步骤S300中计算得到更新的聚类中心vi"的方法具体包括以下，
将已有的日志数据设为数据集X＝{X1，X2，...,Xn},其中每个数据对象Xj具备s个属性，即Xj＝{Xj1，Xj2，...,Xjs}，其中Xjk是数据对象Xj的第k维属性，k取[1，s]；
每个特征值的计算公式如下，

已有的日志数据到每个聚类中心的距离为欧氏距离，具体通过计算欧式距离的相关公式计算得出。

3.根据权利要求1所述的基于多粒度过滤的日志数据收集方法，其特征在于，上述步骤S400中对于聚类中心趋于稳定的判定条件为，
为每个数据类别设定目标函数J，

其中，dij为第i个聚类中心vi与第j...

【专利技术属性】
技术研发人员：李保平，杨建荣，龙磊，
申请(专利权)人：广州汇通国信科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人