System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 日志相似度确定方法、装置、设备及存储介质制造方法及图纸_技高网

日志相似度确定方法、装置、设备及存储介质制造方法及图纸

技术编号:40781389 阅读:4 留言:0更新日期:2024-03-25 20:25
本申请提供一种日志相似度确定方法、装置、设备及存储介质,涉及金融科技领域或其他相关领域。该方法包括:通过获取第一日志报文和第二日志报文,分别对所述第一日志报文和所述第二日志报文的文本内容进行词向量处理,获得第一词频向量和第二词频向量,计算所述第一词频向量和所述第二词频向量的余弦相似度,基于所述第一日志报文和所述第二日志报文的链路信息分别获得第一流程向量和第二流程向量,计算所述第一流程向量和所述第二流程向量的莱文斯坦相似度,对所述余弦相似度和所述莱文斯坦相似度采取加权计算,获得最终的日志相似度。本申请的方法,弥补了当前服务日志对比中没有判断中间服务的不足,提高了准确率。

【技术实现步骤摘要】

本申请涉及金融科技领域或其他相关领域,尤其涉及一种日志相似度确定方法、装置、设备及存储介质


技术介绍

1、日志记录着系统运行期间的详细信息,比如系统的变化情况、人为的操作记录等信息等,方便管理员追踪问题和数据恢复,以及后续对这些日志进行挖掘处理。在这些日志中,可能会存在小部分报错的日志,是运维人员排查故障时的重要依据。随着技术的飞速发展,系统越来越庞杂,日志量也随之剧增,若是运维人员需要浏览每一条日志,再根据日志中的报错内容进行问题判定,则效率太低,因此,为了提高运维人员的效率,经常需要根据日志内容先筛选出可能属于同一报错类型的日志。

2、对于两次服务调用的日志相似度对比,传统方式是通过对日志文本的每行内容进行比对,根据确定的比对的范围,若两个日志文本每一行对应的文本内容相同,则认为这两个日志是相同或者相似的,这种方式简单且高效,但如果输出的日志内容有换行,则准确性会有较大的偏差,难以适用于复杂的日志。

3、目前的日志相似度计算,还可以根据调用服务的上送报文和返回报文的日志进行文本相似度比较来实现,但这种方式容易受到公共字段的影响,并且无法识别两个报错结果一致的不同服务中间调用链路是否一致,因此,误差较大。


技术实现思路

1、本申请提供一种日志相似度确定方法、装置、设备及存储介质,用以解决现有日志相似度计算误差较大,无法识别中间调用链路是否一致的问题。

2、第一方面,本申请提供一种日志相似度确定方法,包括:

3、获取第一日志报文和第二日志报文,所述第一日志报文和所述第二日志报文均包括文本内容和链路信息;

4、分别对所述第一日志报文和所述第二日志报文的文本内容进行词向量处理,获得第一词频向量和第二词频向量,计算所述第一词频向量和所述第二词频向量的余弦相似度;

5、基于所述第一日志报文和所述第二日志报文的链路信息分别获得第一流程向量和第二流程向量,计算所述第一流程向量和所述第二流程向量的莱文斯坦相似度;

6、对所述余弦相似度和所述莱文斯坦相似度采取加权计算,获得最终的日志相似度。

7、第二方面,本申请提供一种日志相似度确定装置,包括:

8、日志获取模块,用于获取第一日志报文和第二日志报文,所述第一日志报文和所述第二日志报文均包括文本内容和链路信息;

9、余弦相似度计算模块,用于分别对所述第一日志报文和所述第二日志报文的文本内容进行词向量处理,获得第一词频向量和第二词频向量,计算所述第一词频向量和所述第二词频向量的余弦相似度;

10、距离相似度计算模块,用于基于所述第一日志报文和所述第二日志报文的链路信息分别获得第一流程向量和第二流程向量,计算所述第一流程向量和所述第二流程向量的莱文斯坦相似度;

11、日志相似度计算模块,用于对所述余弦相似度和所述莱文斯坦相似度采取加权计算,获得最终的日志相似度。

12、第三方面,本申请提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机执行指令,所述处理器执行所述计算机执行指令时实现上述第一方面中任一项所述的日志相似度确定方法。

13、第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的日志相似度确定方法。

14、第五方面,本申请提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面任一项所述的日志相似度确定方法。

15、本申请提供的日志相似度确定方法、装置、设备及存储介质,通过获取第一日志报文和第二日志报文,所述第一日志报文和所述第二日志报文均包括文本内容和链路信息,分别对所述第一日志报文和所述第二日志报文的文本内容进行词向量处理,获得第一词频向量和第二词频向量,计算所述第一词频向量和所述第二词频向量的余弦相似度,基于所述第一日志报文和所述第二日志报文的链路信息分别获得第一流程向量和第二流程向量,计算所述第一流程向量和所述第二流程向量的莱文斯坦相似度,对所述余弦相似度和所述莱文斯坦相似度采取加权计算,获得最终的日志相似度;通过结合余弦相似度和莱文斯坦相似度分别对日志的内容文本和中间流程进行相似度计算,解决了因日志文本中含有大量公共字段导致的准确率较低的问题,也弥补了当前服务日志对比中没有判断中间服务的不足。

本文档来自技高网...

【技术保护点】

1.一种日志相似度确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述分别对所述第一日志报文和所述第二日志报文的文本内容进行词向量处理,获得第一词频向量和第二词频向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述分别对所述第一日志报文和所述第二日志报文的文本内容进行分词处理,包括:

4.根据权利要求2所述的方法,其特征在于,所述将所述第一词集合和所述第二词集合进行有序合并,生成第三词集合,包括:

5.根据权利要求2所述的方法,其特征在于,所述基于所述第三词集合计算获取所述第一词集合对应的第一词频向量和所述第二词集合的对应的第二词频向量,包括:

6.根据权利要求1所述的方法,其特征在于,所述基于所述第一日志报文和所述第二日志报文的链路信息分别获得第一流程向量和第二流程向量,包括:

7.根据权利要求6所述的方法,其特征在于,所述计算所述第一流程向量和所述第二流程向量的莱文斯坦相似度,包括:

8.根据权利要求1所述的方法,其特征在于,所述对所述余弦相似度和所述莱文斯坦相似度采取加权计算,获得最终的日志相似度,包括:

9.一种日志相似度确定装置,包括:

10.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的方法。

12.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述如权利要求1至8任一项所述的方法。

...

【技术特征摘要】

1.一种日志相似度确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述分别对所述第一日志报文和所述第二日志报文的文本内容进行词向量处理,获得第一词频向量和第二词频向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述分别对所述第一日志报文和所述第二日志报文的文本内容进行分词处理,包括:

4.根据权利要求2所述的方法,其特征在于,所述将所述第一词集合和所述第二词集合进行有序合并,生成第三词集合,包括:

5.根据权利要求2所述的方法,其特征在于,所述基于所述第三词集合计算获取所述第一词集合对应的第一词频向量和所述第二词集合的对应的第二词频向量,包括:

6.根据权利要求1所述的方法,其特征在于,所述基于所述第一日志报文和所述第二日志报文的链路信息分别获得第一流程...

【专利技术属性】
技术研发人员:杨先明李德强李峰罗涛
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1