日志聚类方法、装置、设备及存储介质制造方法及图纸

技术编号:24169065 阅读:25 留言:0更新日期:2020-05-16 02:21
本发明专利技术公开了一种日志聚类方法、装置、设备及存储介质。其中,该方法包括:对于目标系统的日志进行特征提取;基于提取的特征确定日志的第一特征向量;基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类;其中,所述第一特征向量用于表征日志的属性,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。本发明专利技术实施例可以实现对动态生成的日志进行实时聚类;此外,由于聚类过程中,不用一次性加载所有的日志,且聚类状态采用第二特征向量表征,内存消耗量小,能有效降低对硬件设备的性能要求。

【技术实现步骤摘要】
日志聚类方法、装置、设备及存储介质
本专利技术涉及日志处理领域,尤其涉及一种日志聚类方法、装置、设备及存储介质。
技术介绍
日志作为网络设备、系统及服务程序等运行时生成的事件记录,往往记载着日期、时间、使用者及动作等相关操作的描述。比如,网络安全领域,往往通过对各类日志分析,进行异常发现、安全检测,进而保护网络安全。相关技术中,日志的聚类算法都基于批次日志,即一次性对于一个批次的静态日志进行聚类。然而,现实场景中,日志是源源不断的生成的,导致聚类算法无法满足动态的日志流的聚类需求。此外,基于批次日志的聚类算法要一次性加载该批次的所有日志到内存,内存消耗大,对硬件设备的性能要求高。
技术实现思路
有鉴于此,本专利技术实施例提供了一种日志聚类方法、装置、设备及存储介质,旨在满足动态日志流的聚类需求。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种日志聚类方法,包括:对于目标系统的日志进行特征提取;基于提取的特征确定日志的第一特征向量;基于日志的第一特征向量和聚类状态中各类别的第二特征向量本文档来自技高网...

【技术保护点】
1.一种日志聚类方法,其特征在于,包括:/n对于目标系统的日志进行特征提取;/n基于提取的特征确定日志的第一特征向量;/n基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类;/n其中,所述第一特征向量用于表征日志的属性,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。/n

【技术特征摘要】
1.一种日志聚类方法,其特征在于,包括:
对于目标系统的日志进行特征提取;
基于提取的特征确定日志的第一特征向量;
基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类;
其中,所述第一特征向量用于表征日志的属性,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。


2.根据权利要求1所述的方法,其特征在于,目标系统的日志为攻击日志,所述对于目标系统的日志进行特征提取,包括:
提取目标系统的日志的预设特征,所述预设特征包括以下至少之一:基础特征和延伸特征;所述基础特征包括以下至少之一:攻击者互联网协议IP地址、攻击类型、攻击利用的漏洞、被攻击者IP地址及被攻击统一资源定位符URL,所述延伸特征包括以下至少之一:基于攻击者IP地址确定的攻击者地域信息和基于被攻击URL确定的被攻击资源的扩展名。


3.根据权利要求1所述的方法,其特征在于,基于日志的第一特征向量和聚类状态中各类别的第二特征向量之间的相似度对日志进行分类,包括:
基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度;
确定每个相似度均大于设定阈值,则基于所述第一特征向量新建一个类别;否则,将所述第一特征向量对应的日志加入相似度最近的类别中。


4.根据权利要求3所述的方法,其特征在于,基于日志的第一特征向量和聚类状态中各类别的第二特征向量,确定第一特征向量和各第二特征向量间的相似度,包括:
针对第一特征向量和第二特征向量中的同一特征,确定表征第一特征向量和第二特征向量相应于所述同一特征的相似度的第一距离;
对所述提取的特征中不同特征的第一距离基于加权计算,确定表征第一特征向量和第二特征向量间的相似度的第二距离。


5.根据权利要求4所述的方法,其特征在于,目标系统的日志为攻击日志,所述确定表征第一特征向量和第二特征向量相应于所述同一特征的相似度的第一距离,包括以下至少之一:
对于攻击者IP地址,将相应的攻击者IP地址转换成二进制数,基于相同位数的个数确定第一距离;
对于被攻击URL,基于相应的被攻击URL的字符串之间的编辑距离确定第一距离;
对于攻击类型,基于相应的攻击类型是否相同确定第一距离。


6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据日志的分类结果,更新所述聚类状态。


7.一种日志聚类方法,其特征在于,包括:
对于目标系统的日志进行特征提取;
基于提取的特征确定日志的第一特征向量;
基于所述第一特征向量中的目标特征进行预分类,得到预分类结果;
确定达到设定条件,基于所述预分类结果中的各类别的第二特征向量和聚类状态中各类别的第二特征向量,更新所述聚类状态;
其中,所述第二特征向量用于表征类别的属性,所述聚类状态用于表征已分类日志的类别。


8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
基于所述预分类结果中同一类别的各日志的第一特征向量,确定相应类别的第二特征向量。


9.根据权利要求7所述的方法,其特征在于,目标系统的日志为攻击日志,所述对于目标系统的日志进行特征提取,包括:
提取目标系统的日志的预设特征,所述预设特征包括以下至少之一:基础特征和延伸特征...

【专利技术属性】
技术研发人员:黄磊
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1