一种日志字段提取方法、装置、设备和存储介质制造方法及图纸

技术编号:34935024 阅读:9 留言:0更新日期:2022-09-15 07:31
本发明专利技术公开了一种日志字段提取方法、装置、设备和存储介质。根据采集的样本日志构建字段提取模型;根据样本日志构建来源类型文件;提取待提取日志的指定特征,根据指定特征从来源类型文件中确定目标来源类型模型,以及目标来源类型模型所对应的目标来源;根据目标来源确定目标字段提取模型,并采用目标字段提取模型对待提取日志进行字段提取。通过预先构建字段提取模型和来源类型模型,并根据所述来源类型模型确定出待提取日志的目标来源后,采用与目标来源所匹配的字段提取模型对待提取日志进行字段提取,使日志解析过程更为省时省力,节约人力和机器资源,提升数据处理效率。提升数据处理效率。提升数据处理效率。

【技术实现步骤摘要】
一种日志字段提取方法、装置、设备和存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种日志字段提取方法、装置、设备和存储介质。

技术介绍

[0002]随着信息技术的飞速发展,人们在各种社会和经济活动中产生大量的格式不尽相同的非结构化数据,将非结构化数据转为结构化数据首先需要将日志中的信息分类提取。通常日志信息以字段为数据单位,将日志信息中的字段及字段值提取并形成统一格式是将日志格式化的重要步骤。
[0003]目前在进行日志字段的提取时,通常是通过用户编写提取规则,并采用编写的提取规则进行字段的提取,但是人工编写提取规则比较耗费人力,随着日志格式的不断变换,所编写的日志规则也要不断的进行维护修改,当日志数据格式复杂时,过多的提取规则会极大的消耗资时间和计算机资源。

技术实现思路

[0004]本专利技术提供了一种日志字段提取方法,以对日志中的字段进行自动提取。
[0005]根据本专利技术的一方面,提供了一种日志字段提取方法,包括: 根据采集的样本日志构建字段提取模型,其中,每个字段提取模型分别对应不同的字段类型;根据所述样本日志构建来源类型文件,其中,所述来源类型文件中包含来源类型模型,以及各来源类型模型所对应的来源与所述字段提取模型的匹配关系;提取待提取日志的指定特征,根据所述指定特征从所述来源类型文件中确定目标来源类型模型,以及所述目标来源类型模型所对应的目标来源;根据所述目标来源确定目标字段提取模型,并采用所述目标字段提取模型对所述待提取日志进行字段提取。
[0006]根据本专利技术的另一方面,提供了一种日志字段自动提取装置,包括:字段提取模型构建模块,用于根据采集的样本日志构建字段提取模型,其中,每个字段提取模型分别对应不同的字段类型;来源类型文件构建模块,用于根据所述样本日志构建来源类型文件,其中,所述来源类型文件中包含来源类型模型,以及各来源类型模型所对应的来源与所述字段提取模型的匹配关系;目标来源确定模块,用于提取待提取日志的指定特征,根据所述指定特征从所述来源类型文件中确定目标来源类型模型,以及所述目标来源类型模型所对应的目标来源;日志字段提取模块,用于根据所述目标来源确定目标字段提取模型,并采用所述目标字段提取模型对所述待提取日志进行字段提取。
[0007]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的方法。
[0008]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的方法。
[0009]本专利技术实施例的技术方案,通过预先构建字段提取模型和来源类型模型,并根据所述来源类型模型确定出待提取日志的目标来源后,采用与目标来源所匹配的字段提取模型对待提取日志进行字段提取,使日志解析过程更为省时省力,节约人力和机器资源,提升数据处理效率。
[0010]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1是根据本专利技术实施例一提供的一种日志字段提取方法的流程图;图2是根据本专利技术实施例二提供的一种日志字段提取方法的流程图;图3是根据本专利技术实施例三提供的一种日志字段提取装置的结构示意图;图4是实现本专利技术实施例的电子设备的结构示意图。
具体实施方式
[0013]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0014]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0015]实施例一图1为本专利技术实施例一提供了一种日志字段提取方法的流程图,本实施例可适用
于对日志字段进行自动提取的情况,该方法可以由日志字段提取装置来执行,该装置可以采用硬件和/或软件的形式实现。如图1所示,该方法包括:步骤S101,根据采集的样本日志构建字段提取模型。
[0016]可选的,根据采集的样本日志构建字段提取模型,包括:对样本日志进行实体识别,并根据实体识别结果进行字段类型标记,其中,字段类型包括名称、组织、地点、代码或时间;根据字段类型标记结果构建字段提取模型。
[0017]具体的说,本实施方式中在采集到样本日志后,会采用自然语言处理中的实体识别算法对各样本日志进行实体识别,确定出各样本中所包含的实体,然后采用少量字段类型标记的监控学习算法,根据所识别出的实体对各样本日志进行字段类型标记,并根据标记为相同字段类型的样本日志构建字段提取模型,因此所构建的每个字段提取模型分别对应不同的字段类型,即每个字段提取模型可以对日志中的一种类型的字段进行提取。本实施方式中的字段类型可以包括名称、组织、地址、代码或时间等,例如,根据包含地址字段类型的样本日志所构建的为地址字段提取模型,根据包含时间字段类型的样本日志所构建的为时间字段提取模型,当然,本实施方式中仅是举例说明,而并不对字段类型的具体形式进行限定。
[0018]步骤S102,根据样本日志构建来源类型文件。
[0019]可选的,根据样本日志构建来源类型文件,包括:提取采集日志中的指定特征,其中,指定特征包括TF

IDF特征;根据TF

IDF特征生成采集日志的指纹特征,并根据指纹特征构建来源类型模型;确定各来源类型模型所对应的来源,并建立各来源类型模型的来源与字段提取模型的对应关系;根据各来源类型模型和对应关系构建来源类型文件。
[0020]具体的说,本实施方式中还会根据所采集的样本构建来源类型模型,并根据所构建的来源本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志字段提取方法,其特征在于,包括:根据采集的样本日志构建字段提取模型,其中,每个字段提取模型分别对应不同的字段类型;根据所述样本日志构建来源类型文件,其中,所述来源类型文件中包含来源类型模型,以及各来源类型模型所对应的来源与所述字段提取模型的匹配关系;提取待提取日志的指定特征,根据所述指定特征从所述来源类型文件中确定目标来源类型模型,以及所述目标来源类型模型所对应的目标来源;根据所述目标来源确定目标字段提取模型,并采用所述目标字段提取模型对所述待提取日志进行字段提取。2.根据权利要求1所述的方法,其特征在于,所述根据采集的样本日志构建字段提取模型,包括:对所述样本日志进行实体识别,并根据实体识别结果进行字段类型标记,其中,所述字段类型包括名称、组织、地点、代码或时间;根据字段类型标记结果构建所述字段提取模型。3.根据权利要求1所述的方法,其特征在于,所述根据所述样本日志构建来源类型文件,包括:提取所述样本日志中的指定特征,其中,所述指定特征包括TF

IDF特征;根据所述TF

IDF特征生成所述采集日志的指纹特征,并根据所述指纹特征构建所述来源类型模型;确定各所述来源类型模型所对应的来源,并建立各所述来源类型模型的来源与所述字段提取模型的对应关系;根据各所述来源类型模型和所述对应关系构建所述来源类型文件。4.根据权利要求3所述方法,其特征在于,所述根据所述指定特征从所述来源类型文件中确定目标来源类型模型,以及所述目标来源类型模型所对应的目标来源,包括:根据所述指定特征从所述来源类型文件中进行查询获取所述目标来源类型模型;根据所述目标来源类型模型确定所述待提取日志的所述目标来源。5.根据权利要求4所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:饶琛琳梁玫娟
申请(专利权)人:北京优特捷信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1