一种通用日志解析方法、终端设备及存储介质技术

技术编号：25396068 阅读：24 留言：0更新日期：2020-08-25 23:01

本发明专利技术涉及一种通用日志解析方法、终端设备及存储介质，该方法中包括：采集日志消息并根据编辑距离相似度将采集的日志消息划分为不同的日志组；根据分组后的结果提取日志消息中日志消息内容的结构化信息，与提取的日志头中的结构化信息合并后共同作为该日志消息的结构化信息。本发明专利技术根据编辑距离将日志消息进行分组，从分组中提取得到该组的日志类别模板，可以效率较高地解析各种类型的日志消息，具有较高的准确率、实现简单且支持在线处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种通用日志解析方法、终端设备及存储介质
本专利技术涉及计算机
，尤其涉及一种通用日志解析方法、终端设备及存储介质。
技术介绍
系统日志是现代信息系统不可或缺的一部分。系统日志作为一个通用的数据源，包含了关于系统的重要信息，如使用模式、执行路径和程序运行状态等，是帮助这些信息系统分析运行状态的宝贵资产，以便获得有助于增强系统健康性、稳定性和可用性的见解。对日志的分析可用于信息系统检测执行异常、监视网络故障、发现安全风险和诊断性能问题，甚至查找软件错误。然而日志消息通常是自然语言文本的非结构化数据，开展上述分析需要一个将非结构化的日志数据转化为结构化的数据的过程，称之为日志解析。每个日志消息都是由日志语句打印，并用其消息头和消息内容记录特定的系统事件。消息头通常由日志框架确定，因此可以相对容易地提取，例如时间戳、详细级别(例如ERROR/INFO/DEBUG)和组件(component)等。相反，开发人员编写的日志消息内容通常很难结构化，因为它是由常量字符串和变量值组成的。结构化日志解析器是大多数自动和智能日志挖掘和数据驱动日志分析解决方案的首要步骤，也是日志管理系统中管理日志的关键步骤。仅当日志解析精度足够高时，日志挖掘和分析才有效；因为日志挖掘可能对某些关键事件敏感，关键事件上的4％解析错误可能导致日志挖掘中性能下降一个数量级。一种可能的解析方法是将日志条目解析为LogKey和参数向量。LogKey是日志输出源代码中的固定字符部分，而可变的部分通常构造成参数向量。传统的日志解析方法依赖于手工构建的正则表达式或...

【技术保护点】
1.一种通用日志解析方法，其特征在于，包括以下步骤：/n采集日志消息并根据编辑距离相似度将采集的日志消息划分为不同的日志组；/n根据分组后的结果提取日志消息中日志消息内容的结构化信息，与提取的日志头中的结构化信息合并后共同作为该日志消息的结构化信息。/n

【技术特征摘要】
1.一种通用日志解析方法，其特征在于，包括以下步骤：
采集日志消息并根据编辑距离相似度将采集的日志消息划分为不同的日志组；
根据分组后的结果提取日志消息中日志消息内容的结构化信息，与提取的日志头中的结构化信息合并后共同作为该日志消息的结构化信息。

2.根据权利要求1所述的通用日志解析方法，其特征在于：日志组的划分方法为：当处理第一条日志消息时，新增一个日志组，将第一条日志消息添加至该日志组内，并设定该第一条日志消息为日志组的代表样本；当处理后续的日志消息时，计算该日志消息与各日志组对应的代表样本的日志消息内容之间的编辑距离相似度，如果存在编辑距离相似度大于相似度阈值，则将该日志消息添加至编辑距离相似度最高时对应的日志组内，并更新添加后的日志组的代表样本；否则，新增一个日志组，将该日志消息添加至新增的日志组内，并设定为添加后的日志组的代表样本。

3.根据权利要求2所述的通用日志解析方法，其特征在于：所述编辑距离相似度通过Levenshtein编辑距离进行计算。

4.根据权利要求2所述的通用日志解析方法，其特征在于：更新日志组的代表样本的方法为：当该日志组每新增额定数量的不重复日志消息后，取该日志组的所有日志消息中日志消息内容长度为所有日志消息中日志消息内容长度的中位数的日志消息作为该日志组的代表样本。

5.根据权利要求1所述的通用日志解析方法，其特征在于：提取日志消息中日志消息内容的结构化信息的方法为：针...

【专利技术属性】
技术研发人员：姚鸿富，陈奋，陈荣有，
申请(专利权)人：厦门服云信息科技有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人