日志数据的提取方法、系统、设备及介质技术方案

技术编号:35039158 阅读:21 留言:0更新日期:2022-09-24 23:17
本发明专利技术提供一种日志数据的提取方法、系统、设备及介质,日志数据的提取方法包括:获取日志记录;在规则库中读取并保存所述日志记录有关的各范化规则,生成规则集合;在所述规则集合中查找是否存在与所述日志记录匹配的范化规则;若存在,则使用匹配的范化规则从所述日志记录中提取对应的日志数据。解决了使用正则表达式匹配日志记录易发生大量回溯,减慢运行速率的问题。行速率的问题。行速率的问题。

【技术实现步骤摘要】
日志数据的提取方法、系统、设备及介质


[0001]本专利技术涉及日志审计
,具体涉及一种日志数据的提取方法、系统、设备及介质。

技术介绍

[0002]随着大数据时代和物联网时代的到来,网络已经深入到工作的各个方面。每天网络中都会形成大量的日志,这些日志记录着网络资产的状态及网络服务的操作记录。对日志进行审计和分析能够协助操作人员监控和了解系统的运行状态。
[0003]传统的日志审计方式,需要经过日志采集阶段、解析阶段、入库阶段、检索阶段等多个环节。通常在日志采集阶段会对日志进行过滤,以过滤掉不需要统计的日志。然后在解析阶段通过日志审计设备,采用正则表达式的方式把日志中需要解析的字段提取出来,再将解析的字段进行入库和检索等其他阶段。
[0004]虽然使用正则表达式来识别数据块具有较好的通用性和扩展性,但在海量数据场景中存在如下缺陷:(1)正则表达式规则性能低下:一般的日志审计设备可以审计多种类型日志,在一些复杂现场可能存在安全设别、网络设备、主机、数据库、中间件、应用系统和虚拟化系统等多种系统,对应的规则有上百种。而将日志依次与上百种规则相匹配,直至找到到合适的规则,并解析出相应的字段非常耗费性能,尤其在正则表达式规则不匹配的情况下,会导致灾难性的正则表达式回溯现象。使得CPU资源大幅上升,影响其他正常功能。(2)高质量正则表达式规则编写对于运维人员的难度较大。因此,需要提供一种日志数据的提取方法、系统、设备及介质。

技术实现思路

[0005]鉴于以上现有技术的缺点,本专利技术的目的在于提供一种日志数据的提取方法,以改善现有技术中,使用正则表达式匹配日志记录易发生大量回溯,减慢运行速率、编写不规范的问题。
[0006]为实现上述目的及其它相关目的,本专利技术提一种日志数据的提取方法,包括以下过程:
[0007]获取日志记录;
[0008]在规则库中读取并保存所述日志记录有关的各范化规则,生成规则集合;
[0009]在所述规则集合中查找是否存在与所述日志记录匹配的范化规则;
[0010]若存在,则使用匹配的范化规则从所述日志记录中提取对应的日志数据。
[0011]在本专利技术一实施例中,所述日志记录中还记载有地址标识,所述地址标识表示所述日志记录的日志源。
[0012]在本专利技术一实施例中,所述在规则库中,读取并保存所述日志记录对应的各范化规则,生成规则集合,包括以下过程:
[0013]读取所述日志记录中的地址标识;
[0014]在所述规则库中,根据所述地址标识查找所述日志记录的日志源,其中,每个日志源具有多个不同的范化规则;
[0015]在所述规则库中,读取并保存所述日志源具有的多个范化规则,生成规则集合。
[0016]在本专利技术一实施例中,所述规则库中还记载有每个范化规则的优先级,所述日志源对应的多个范化规则按照优先级降序的顺序,记载在所述规则集合中。
[0017]在本专利技术一实施例中,所述在所述规则集合中查找是否存在与所述日志记录匹配的范化规则,是将所述规则集合与所述日志记录进行匹配实现的,所述规则集合与所述日志记录匹配的过程为:
[0018]S31、在所述规则集合中,选择优先级最高的范化规则作为待匹配范化规则;
[0019]S32、判断所述待匹配范化规则是否与所述日志记录匹配;
[0020]S33、若不匹配,在所述规则集合中依序选择另一个范化规则作为待匹配范化规则,返回步骤S32进行日志记录的匹配,直至所述规则集合中的各范化规则均不与所述日志记录匹配,则所述规则集合中不存在与所述日志记录匹配的范化规则。
[0021]在本专利技术一实施例中,所述在所述规则集合中查找是否存在与所述日志记录匹配的范化规则之前,还包括:
[0022]在所述规则集合中,选择优先级大于预设阈值的多个范化规则,生成第一子规则集合,将所述第一子规则集合与所述日志记录进行匹配;
[0023]若不匹配,在所述规则集合中选择优先级小于或等于所述阈值的多个范化规则,生成第二子规则集合;
[0024]根据所述日志记录中是否存在与所述第二子规则集合中范化规则相匹配的特征串,改变对应范化规则的优先级,更新所述第二子规则集合,作为当前的规则集合。
[0025]在本专利技术一实施例中,所述使用匹配的范化规则从所述日志记录中提取对应的日志数据之后,还包括:将所述日志数据保存至缓冲区间中。
[0026]在本专利技术一实施例中,还提供一种日志数据的提取系统,所述系统包括:
[0027]日志记录获取模块,用于获取日志记录;
[0028]规则集合生成模块,用于在规则库中读取并保存所述日志记录对应的各范化规则,生成规则集合;
[0029]范化规则获取模块,用于在所述规则集合中查找是否存在与所述日志记录匹配的范化规则;
[0030]数据提取模块,用于若存在,则使用匹配的范化规则从所述日志记录中提取对应的日志数据。
[0031]在本专利技术一实施例中,还提供一种日志数据的提取的设备,包括处理器,所述处理器与存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现上述任一项所述的方法。
[0032]在本专利技术一实施例中,还提供一种计算机可读存储介质,包括程序,当所述程序在计算机上运行时,使得计算机执行上述中任一项所述的方法。
[0033]综上所述,本专利技术中,通过日志审计设备获取需要解析的日志记录后,通过读取规则库中对应的各范化规则,并将这些范化规则保存到规则集合中。在规则集合中将各范化规则逐一与日志记录进行匹配,若规则集合中存在与日志记录匹配的范化规则,则使用匹
配的范化规则提取日志记录中的相关日志数据。通过范化规则引用正则规则的方式,实现对日志记录的解析,由于范化规则更容易更改和扩展,提升了匹配性能。解决了使用正则表达式匹配日志记录易发生大量回溯,减慢运行速率、且正则表达式编写不规范的问题。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1显示为本专利技术一实施例中日志数据的提取方法的流程示意图;
[0036]图2显示为本专利技术一实施例中根据日志源地址标识获取范化规则的流程示意图;
[0037]图3显示为本专利技术一实施例中规则集合与日志记录匹配的流程示意图;
[0038]图4显示为本专利技术一实施例中根据日志记录改变优先级的流程示意图;
[0039]图5显示为本专利技术一实施例中日志数据的提取系统的原理结构示意图。
[0040]组件标号说明:
[0041]10、日志数据的提取系统;11、日志记录获取模块;12、规则集合生成模块;13、范化规则获取模块;数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志数据的提取方法,其特征在于,包括以下过程:获取日志记录;在规则库中读取并保存所述日志记录有关的各范化规则,生成规则集合;在所述规则集合中查找是否存在与所述日志记录匹配的范化规则;若存在,则使用匹配的范化规则从所述日志记录中提取对应的日志数据。2.根据权利要求1所述的日志数据的提取方法,其特征在于,所述日志记录中还记载有地址标识,所述地址标识表示所述日志记录的日志源。3.根据权利要求2所述的日志数据的提取方法,其特征在于,所述在规则库中,读取并保存所述日志记录对应的各范化规则,生成规则集合,包括以下过程:读取所述日志记录中的地址标识;在所述规则库中,根据所述地址标识查找所述日志记录的日志源,其中,每个日志源具有多个不同的范化规则;在所述规则库中,读取并保存所述日志源具有的多个范化规则,生成规则集合。4.根据权利要求3所述的日志数据的提取方法,其特征在于,所述规则库中还记载有每个范化规则的优先级,所述日志源对应的多个范化规则按照优先级降序的顺序,记载在所述规则集合中。5.根据权利要求4所述的日志数据的提取方法,其特征在于,所述在所述规则集合中查找是否存在与所述日志记录匹配的范化规则,是将所述规则集合与所述日志记录进行匹配实现的,所述规则集合与所述日志记录匹配的过程为:S31、在所述规则集合中,选择优先级最高的范化规则作为待匹配范化规则;S32、判断所述待匹配范化规则是否与所述日志记录匹配;S33、若不匹配,在所述规则集合中依序选择另一个范化规则作为待匹配范化规则,返回步骤S32进行日志记录的匹配,直至所述规则集合中的各范化规则均不与所述日志记录匹配,则所述规则...

【专利技术属性】
技术研发人员:褚瑞李启凌李红霞张宏亮颜元超刘德备邹宇嘉张焕欣李鸽刘泽林姜博王涛王国伟
申请(专利权)人:上海中广核工程科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1