【技术实现步骤摘要】
一种日志数据处理方法、装置、设备及存储介质
[0001]本专利技术涉及计算机
,尤其涉及一种日志数据处理方法、装置、设备及存储介质。
技术介绍
[0002]随着信息技术的发展,日志数据作为记录系统运行状态和异常情况的重要数据源,在系统管理、故障排查、安全防护等方面扮演着重要角色。然而,由于日志数据量大、形式复杂以及存在一定的噪声和异常值等问题,如何从海量的日志数据中筛选出有意义的信息,对于日志数据分析和应用具有至关重要的意义。
[0003]目前,现有的日志数据处理方法主要包括基于规则的方法、基于关键词搜索的方法以及基于机器学习的方法等。
[0004]但是,基于规则的方法以及基于关键词搜索的方法,需要依靠人力在日志数据中查询信息,导致日志分析耗时较久,难度较高。基于机器学习的方法针对海量日志数据实时处理、存储和分析等方面,存在着计算资源消耗高、耗时久、精度不足等问题。
技术实现思路
[0005]本专利技术提供了一种日志数据处理方法、装置、设备及存储介质,可以减少日志数据处理过程中消耗的计算 ...
【技术保护点】
【技术特征摘要】
1.一种日志数据处理方法,其特征在于,包括:采集多个原始日志数据,对各所述原始日志数据进行标准化处理,并根据处理后的日志数据,建立与所述多个原始日志数据匹配的分词库;根据所述分词库,确定与各所述原始日志数据对应的日志向量,并根据各所述原始日志数据对应的日志向量,对所述多个原始日志数据进行层次聚类;根据聚类结果,确定与所述多个原始日志数据对应的分析结果。2.根据权利要求1所述的方法,其特征在于,对各所述原始日志数据进行标准化处理,包括:按照预设的标准字段类型,分别对各所述原始日志数据对应的字段值进行提取;所述标准字段类型包括时间戳、日志来源以及日志内容。3.根据权利要求2所述的方法,其特征在于,根据处理后的日志数据,建立与所述多个原始日志数据匹配的分词库,包括:将每个原始日志数据对应的日志内容进行拆分,得到每个原始日志数据对应的至少一个分词;根据每个原始日志数据对应的至少一个分词构建分词库;其中,所述分词库中包括每个分词与对应标识符之间的映射关系。4.根据权利要求3所述的方法,其特征在于,根据所述分词库,确定与各所述原始日志数据对应的日志向量,包括:根据所述分词库中每个分词与对应标识符之间的映射关系,确定与各所述原始日志数据对应的特征向量;对各所述原始日志数据对应的特征向量进行归一化处理,得到各所述原始日志数据对应的日志向量。5.根据权利要求1所述的方法,其特征在于,根据聚类结果,确定与所述多个原始日志数据对应的分析结果,包括:根据聚类结果在所述多个原始日志数据中,按照目标数据类型筛选有效数据;或者,根据聚类结果,在所述多个原始日志数据中检测异常数据;所述异常数据对应的异常类型...
【专利技术属性】
技术研发人员:张大伟,陈秋华,
申请(专利权)人:北京优特捷信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。