日志数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32133664 阅读:26 留言:0更新日期:2022-01-29 19:38
本公开提供了一种日志数据处理方法,可以应用于人工智能技术领域和金融技术领域。该日志数据处理方法包括:获取日志数据,其中,日志数据包括至少一条日志记录;对每条日志记录进行向量化处理,以得到包含日志记录向量的向量化日志集合;对向量化日志集合中的日志记录向量进行聚类处理,形成不同的日志簇,其中,同一日志簇中包含相似的日志记录;对同一日志簇中的日志记录进行识别,得到命名实体;以及根据命名实体生成日志簇的日志模板,其中,日志模板用于表征日志簇的日志结构特征。本公开还提供了一种日志数据处理装置、设备、存储介质和程序产品。程序产品。程序产品。

【技术实现步骤摘要】
日志数据处理方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
和金融
,更具体地涉及一种日志数据处理方法、装置、设备、介质和程序产品。

技术介绍

[0002]日志是信息系统产生的数据,记录着设备、操作系统和应用软件的运行状态,反映着信息系统内在的真实状况,是信息运维管理人员和安全管理人员日常运维排查故障、分析攻击溯源的重要依据,因此,日志的分析和管理变得日益重要。相关技术中通过对日志进行分类识别,按格式设立分类,匹配相应的数据字段处理范式规则,将字段提取出来并赋值给指定的字段,以对数据提取。
[0003]在实现本公开技术方案过程中,专利技术人发现相关技术中至少存在以下问题:相关技术中的方法需要预先定义日志格式,对每一种日志格式进行适配,当日志格式发生变化时,识别新日志会出现格式错误,导致日志识别失败,需要技术人员重新建立数据格式匹配规则来解决问题,整个日志分析处理过程费时费力,效率较低。

技术实现思路

[0004]鉴于上述问题,本公开提供了一种提高日志识别速度的日志处理方法、装置、设备、介质和程本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种日志数据处理方法,包括:获取日志数据,其中,所述日志数据包括至少一条日志记录;对每条所述日志记录进行向量化处理,以得到包含日志记录向量的向量化日志集合;对所述向量化日志集合中的所述日志记录向量进行聚类处理,形成不同的日志簇,其中,同一所述日志簇中包含相似的所述日志记录;对同一所述日志簇中的所述日志记录进行识别,得到命名实体;以及根据所述命名实体生成所述日志簇的日志模板,其中,所述日志模板用于表征所述日志簇的日志结构特征。2.根据权利要求1所述的方法,所述对每条所述日志记录进行向量化处理,以得到包含日志记录向量的向量化日志集合包括:对每条所述日志记录进行预处理;对预处理后的所述日志记录进行分词和去停用词处理,得到单词语料库;将所述单词语料库输入向量化模型中,将单词进行向量化,输出单词向量库;其中,所述单词向量库包括每个所述单词对应的词向量;根据每条所述日志记录对应的所述单词,以及所述单词对应的所述词向量,确定每条所述日志记录对应的日志记录向量,以得到所述向量化日志集合。3.根据权利要求1所述的方法,所述对所述向量化日志集合中的所述日志记录向量进行聚类处理,形成不同的日志簇,包括:对所述向量化日志集合中的所述日志记录向量进行聚类处理,形成不同的向量簇;根据同一所述向量簇中的所述日志记录向量,确定每个所述日志记录向量对应的所述日志记录,以形成所述向量簇对应的所述日志簇。4.根据权利要求3所述的方法,所述对所述向量化日志集合中的所述日志记录向量进行聚类处理,形成不同的向量簇包括:根据预设的邻域参数,确定所述向量化日志集合中的每个所述日志记录向量的∈

邻域,以得到核心对象集合;根据所述核心对象集合中的第一核心对象,确定所述向量化日志集合中所述第一核心对象密度可达的所述日志记录向量,形成第一向量簇;根据所述核心对象集合中的第二核心对象,确定所述更新后的所述向量化日志集合中所述第二核心对象密度可达的所述日志记录向量,形成第二向量簇,以得到不同的所述向量簇,其中,更新后的所述向量化日志集合包括移除所述第一向量簇中的所述日志记录向量。5.根据权利要求1所述的方法,所述对同一所述日志簇中的所述日志记录进行识别,得到命名实体...

【专利技术属性】
技术研发人员:张阳刘东阳
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1