一种分布式日志的自动特征提取方法技术

技术编号：22501875 阅读：17 留言：0更新日期：2019-11-09 02:30

本发明专利技术涉及软件工程及数据挖掘技术，具体涉及一种分布式日志的自动特征提取方法，包括以下步骤：步骤1、根据时序提取和划分日志数据；步骤2、根据划分日志数据，基于频繁序列挖掘序列规则，构建符合频繁要求的日志特征流；步骤3、将特征流中关键信息的字符串转换为正则表达式；步骤4、输出特征流。该方法简化了人工在日志中寻找程序执行的过程的特征项，实现了特征提取的自动化；基于海量日志数据，建立了软件运行中正确的特征流；JSON文件形式的输出和正则表达式生成便于维护人员的人工的检查和理解。减少人工特征定义的失误；降低频繁修改的人力和时间成本。

An automatic feature extraction method of distributed log

The invention relates to software engineering and data mining technology, in particular to an automatic feature extraction method of distributed log, which comprises the following steps: Step 1, extracting and dividing log data according to time sequence; step 2, mining sequence rules based on frequent sequence according to dividing log data, and constructing log feature stream meeting frequent requirements; step 3, mining key information in feature stream String is converted to regular expression; step 4, output characteristic flow. This method simplifies the process of finding the feature items of program execution in the log, and realizes the automation of feature extraction. Based on the massive log data, it establishes the correct feature flow in the software operation. The output in the form of JSON file and the generation of regular expression are convenient for the manual inspection and understanding of maintenance personnel. Reduce the mistakes in defining labor characteristics; reduce the labor and time cost of frequent modification.

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式日志的自动特征提取方法
本专利技术属于软件工程及数据挖掘
，尤其涉及一种分布式日志的自动特征提取方法。
技术介绍
现代软件日益复杂，规模日益庞大，导致软件维护成本攀升。分布式及异构软件系统的广泛使用，使得人工的监控软件运行状态和发现运行故障变得极为困难。日志是软件运行时不可或缺的输出形式。为了尽早发现分布式系统的故障所在，减少潜在的宕机风险，大量的分布式系统通过实时的日志输出保存运行时软件状态，为维护人员提供数据基础。在现代分布式系统中，维护人员可以基于系统输出的日志，人工检查软件运行时状态，发现和分析故障所在。然而，大量的分布式系统保持全天候运行，每天输出海量的日志数据。这使得人工分析全部日志变为不可能。为了通过日志发现软件运行中出现的故障及潜在风险，维护人员人工定义正确的日志所对应的特征流，并通过将特征流与日志自动匹配的方式，判定日志是否符合特征流。若不符合，则表明软件存在运行故障或潜在风险，可以据此进一步人工分析。然而，维护人员人工定义正确的日志特征是极为耗时和容易出错的，主要的原因是(1)日志本身复杂，人工定义日志特征流容易导致部分细节的丢失；(2)现代软件的持续集成等开发泛型，使得软件版本经常变更，特征流的定义需要频繁更改。基于上面两点原因，人工定义的特征流在实践中仍然会消耗大量的人力和时间成本。
技术实现思路
本专利技术拟解决的核心问题是如何自动化的提取日志特征流，降低人工特征提取造成的成本消耗，并避免人工提取造成的特征流的错误。提出的方法是基于海量的具备正确运行行为的日志，自动划分日志事件中的特征项和值，基于该划分提取频繁子序列，...

【技术保护点】
1.一种分布式日志的自动特征提取方法，其特征是，包括以下步骤：步骤1、根据时序提取和划分日志数据；步骤2、根据划分日志数据，基于频繁序列挖掘序列规则，构建符合频繁要求的日志特征流；步骤3、将特征流中关键信息的字符串转换为正则表达式；步骤4、输出特征流。

【技术特征摘要】
1.一种分布式日志的自动特征提取方法，其特征是，包括以下步骤：步骤1、根据时序提取和划分日志数据；步骤2、根据划分日志数据，基于频繁序列挖掘序列规则，构建符合频繁要求的日志特征流；步骤3、将特征流中关键信息的字符串转换为正则表达式；步骤4、输出特征流。2.如权利要求1所述的分布式日志的自动特征提取方法，其特征是，步骤1具体实现包括，在原始的日志数据基础上，过滤掉输出程序中的格式化日志部分，并自动划分提取特征项和对应的状态信息，特征项用于后续的序列规则提取。3.如权利要求1所述的分布式日志的自动特征提取方法，其特征是，步骤2的实现包括，在序列生成阶段，首先挖掘并生成序列长度为1或2的特征流序列，然后根据序列长度为1或2的特征流序列拼接为更长的特征序列，直至无法找到更长的频繁序列。4.如权利要求1所述的分布式日志的自动特征提取方法，其特征是，...

【专利技术属性】
技术研发人员：玄跻峰，张玉虎，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人