日志检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39167661 阅读:11 留言:0更新日期:2023-10-23 15:05
本公开提出了一种日志检测方法、装置、电子设备及存储介质。所述的方法包括:利用NaN算法对第一目标日志数据集进行第一聚类,确定第一目标日志数据集的自然特征值,及第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离;确定每个日志样本的自然邻居距离为每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离,确定自然特征值作为HDBSCAN算法的最小簇的值,利用HDBSCAN算法对第一目标日志数据集进行第二聚类,获取第一目标日志数据集中的至少一个聚类;基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离,确定与待检测日志距离最短的质心对应的日志样本的类别为待检测日志的类别。为待检测日志的类别。为待检测日志的类别。

【技术实现步骤摘要】
日志检测方法、装置、电子设备及存储介质


[0001]本公开涉及机器学习
,尤其涉及一种日志检测方法、装置、电子设备及存储介质。

技术介绍

[0002]日志记录着计算机系统的运行状态信息和关键行为,因此当计算机系统出现问题时,对应的异常日志文件可以帮助技术人员快速定位故障位置和原因。日志检测旨在通过信息化的方法分析日志数据,快速找出异常的日志,从而实现对系统的异常检测。但随着互联网技术的快速发展,日志规模呈现指数级的增长,传统日志检测方法已不在适用。

技术实现思路

[0003]本公开提供一种日志检测方法、装置、电子设备及存储介质,以解决相关技术中的问题。
[0004]本公开的第一方面实施例提出了一种日志检测方法,该方法包括:利用自然邻居NaN算法对第一目标日志数据集进行第一聚类,确定所述第一目标日志数据集的自然特征值,及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离;确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离,确定所述自然特征值作为分层密度噪声应用空间聚类HDBSCAN算法的最小簇的值,利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类,获取所述第一目标日志数据集中的至少一个聚类;基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离,确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别。
[0005]在本公开的一些实施例中,所述确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离,确定所述自然特征值作为分层密度噪声应用空间聚类HDBSCAN算法的最小簇的值,利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类,获取所述第一目标日志数据集中的至少一个聚类,包括:确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离;基于所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离,确定所述第一目标日志数据集中任意两个日志样本之间的相互可达距离;基于所述任意两个日志样本之间的相互可达距离,将所述自然特征值作为HDBSCAN算法的最小簇的值,利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类,获取所述第一目标日志数据集中的至少一个聚类。
[0006]在本公开的一些实施例中,所述基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离,基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离,
确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别,包括:基于所述第一目标日志数据集中的至少一个聚类中每个聚类包含的所有日志样本,确定所述至少一个聚类中每个聚类的质心;基于所述至少一个聚类中每个聚类的质心与其包含的每个日志样本之间的距离,确定与所述质心距离最小的日志样本为所述至少一个聚类中每个聚类的中心;所述基于待检测日志与所述至少一个聚类中每个聚类的中心之间的距离,确定与所述待检测日志距离最短的中心对应的日志样本的类别为所述待检测日志的类别。
[0007]在本公开的一些实施例中,所述的日志检测方法还包括:获取第二目标日志数据集;向量化处理所述第二目标日志数据集中的每个日志样本,获取所述第一目标日志数据集。
[0008]在本公开的一些实施例中,所述向量化处理所述第二目标日志数据集中的每个日志样本,获取所述第一目标日志数据集,包括:向量化处理所述第二目标日志数据集中的每个日志样本,获取所述第二目标日志数据集中每个日志样本对应的向量化日志样本;对所述第二目标日志数据集中每个所述向量化日志样本进行降维处理,获取所述第一目标日志数据集。
[0009]在本公开的一些实施例中,所述向量化处理所述第二目标日志数据集中的每个日志样本,包括:基于目标单词所在的目标日志样本中所有单词的个数,及所述目标单词在所述目标日志样本中出现的次数,确定所述目标日志样本中目标单词的词频TF;基于所述第二目标日志数据集中的日志样本的个数,及所述目标单词在所述第二目标日志数据集中所有日志样本中出现的次数,确定所述目标日志样本中目标单词的逆文本频率IDF;基于所述目标日志样本中目标单词的TF,及所述目标日志样本中目标单词的IDF,及目标单词所在的目标日志样本中所有单词的个数,获取所述目标日志样本中目标单词的向量化处理结果;遍历所述目标日志样本中的每个单词,将所述目标日志样本中的每个单词作为目标单词,获取所述目标日志样本的向量化处理结果;遍历所述第二目标日志数据集中的每个日志样本,将所述第二目标日志数据集中的每个日志样本作为目标日志样本,获取所述第二目标日志数据集中的每个日志样本的向量化处理结果。
[0010]在本公开的一些实施例中,所述的日志检测方法还包括:获取第三目标日志数据集;将所述第三目标日志数据集中的每个日志样本转化为结构化日志样本,获取所述第二目标日志数据集。
[0011]本公开的第二方面实施例提出了一种日志检测装置,该装置包括:第一确定单元,用于利用自然邻居NaN算法对第一目标日志数据集进行第一聚类,
确定所述第一目标日志数据集的自然特征值,及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离;获取单元,用于确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离,确定所述自然特征值作为分层密度噪声应用空间聚类HDBSCAN算法的最小簇的值,利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类,获取所述第一目标日志数据集中的至少一个聚类;第二确定单元,用于基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离,确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别。
[0012]本公开的第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开第一方面实施例中描述的方法。
[0013]本公开的第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开第一方面实施例中描述的方法。
[0014]综上,本公开提出了一种日志检测方法、装置、电子设备及存储介质。其中,所述的方法包括:利用自然邻居(Natural Neighbor,简称NaN)算法对第一目标日志数据集进行第一聚类,确定所述第一目标日志数据集的自然特征值,及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离;确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离,确定所述自然特征值作为分层密度噪声应用空间聚类(Hierarchical Density

...

【技术保护点】

【技术特征摘要】
1.一种日志检测方法,其特征在于,包括:利用自然邻居NaN算法对第一目标日志数据集进行第一聚类,确定所述第一目标日志数据集的自然特征值,及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离;确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离,确定所述自然特征值作为分层密度噪声应用空间聚类HDBSCAN算法的最小簇的值,利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类,获取所述第一目标日志数据集中的至少一个聚类;基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离,确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别。2.根据权利要求1所述的方法,其特征在于,所述确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离,确定所述自然特征值作为分层密度噪声应用空间聚类HDBSCAN算法的最小簇的值,利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类,获取所述第一目标日志数据集中的至少一个聚类,包括:确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离;基于所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离,确定所述第一目标日志数据集中任意两个日志样本之间的相互可达距离;基于所述任意两个日志样本之间的相互可达距离,将所述自然特征值作为HDBSCAN算法的最小簇的值,利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类,获取所述第一目标日志数据集中的至少一个聚类。3.根据权利要求1所述的方法,其特征在于,所述基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离,基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离,确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别,包括:基于所述第一目标日志数据集中的至少一个聚类中每个聚类包含的所有日志样本,确定所述至少一个聚类中每个聚类的质心;基于所述至少一个聚类中每个聚类的质心与其包含的每个日志样本之间的距离,确定与所述质心距离最小的日志样本为所述至少一个聚类中每个聚类的中心;所述基于待检测日志与所述至少一个聚类中每个聚类的中心之间的距离,确定与所述待检测日志距离最短的中心对应的日志样本的类别为所述待检测日志的类别。4.根据权利要求1所述的方法,其特征在于,所述的方法还包括:获取第二目标日志数据集;向量化处理所述第二目标日志数据集中的每个日志样本,获取所述第一目标日志数据集。5.根据权利要求4所述的方法,其特征在于,所述向量化处理所述第二目标日志数据集中的每个日志样本,获取所述第一目标日志数据集,包括...

【专利技术属性】
技术研发人员:张威
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1