日志结构化信息提取方法及装置制造方法及图纸

技术编号:13082523 阅读:56 留言:0更新日期:2016-03-30 14:42
本发明专利技术公开日志结构化信息提取方法及装置,以实现自适应自动提取日志结构化数据的目的。在本发明专利技术实施例中,上游系统可向下游系统提供日志和日志DDL文件(日志DDL文件中包含日志中结构化信息的字段解析规则和字段定义),这样下游系统可根据日志DDL文件自动提取日志的结构化数据,后续可加载到目标数据库供后续分析。在此过程中,下游系统无需理解晦涩难懂的日志。同时,在日志格式变化或业务逻辑变化后,上游系统只需要提供新的日志DDL文件,下游系统就可以依据新的日志DDL文件对日志进行解析。因此,本发明专利技术实施例所提供技术方案能够自适应由日志格式变化或业务逻辑变化引起的字段解析规则变化。

【技术实现步骤摘要】

本专利技术涉及计算机领域,特别是涉及日志结构化信息提取方法及装置
技术介绍
日志数据是大数据的重要组成部分。日志数据的分析在网站用户行为分析、系统运维统计等方面都是必不可少的。把日志的结构化信息提取出来,再基于提取后的结构化数据进行分析的方法被普遍接受。目前日志结构化信息的提取方法不够灵活,基本都是针对某种具体的日志需要进行编码提取结构化信息。不同的日志格式需要进行不同的编码工作,对于同一日志,由日志格式或业务变化引起的变更也需要修改相应的代码,无法自适应其变化。
技术实现思路
本专利技术实施例的目的是提供日志结构化信息提取方法及装置,以实现自适应自动提取日志结构化数据的目的。为实现上述目的,本专利技术提供了如下方案:一种日志结构化信息提取方法,包括:获取日志文件和与之相应的日志DDL文件,所述日志DDL文件中包含所述日志文件中结构化信息的字段解析规则和字段定义;根据所述字段解析规则从所述日志文件中提取出字段并存储至输出文件;生成与所述输出文件对应的字段类型说明文件。一种日志结构化信息提取装置,包括:获取单元,获取日志文件和与之相应的日志DDL文件,所述日志DDL文件中包含所述日志文件中结构化信息的字段解析规则和字段定义;任务单元,用于根据所述字段解析规则从所述日志文件中提取出字段并存储至输出文件;第一生成单元,用于生成与所述输出文件对应的字段类型说明文件。在本专利技术实施例中,上游系统可向下游系统提供日志DDL文件,这样下游系统可根据日志DDL文件自动提取日志的结构化数据,后续可加载到目标数据库供后续分析。在此过程中,下游系统无需理解晦涩难懂的日志。同时,在日志格式变化或业务逻辑变化后,上游系统只需要提供新的日志DDL文件,下游系统就可以依据新的日志DDL文件对日志进行解析。因此,本专利技术实施例所提供技术方案能够自适应由日志格式变化或业务逻辑变化引起的字段解析规则变化,如分隔符变化、字段增减、字段位置变化等。只要结构化数据的数据接口不变,就不会对下游系统有影响,下游系统也就不需要做任何修改。此方案,对于分隔符变化和字段位置变化的情况,完全可以保持结构化数据的数据接口不变,也就是说这些变化对下游系统而言是透明的。对于字段增减的情况,其实数据接口已经发生改变,但是此方案仍然能够自适应地提取结构化数据,如果下游系统没有使用到受影响的字段,也不需要做任何修改。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1-4为本专利技术实施例提供的日志结构化信息提取方法示例性流程图;图5、6为本专利技术实施例提供日志结构化信息提取装置结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。关系数据库存储的数据是结构化的数据,导出成文本就是固定分割符分割的数据。与之对应的是半结构化数据,比如xml,json,html格式等;非结构化数据指的是图片,音频和视频文件等。与传统的结构化数据(如数据库表)相比,日志由于其灵活多变的格式,不管对人的理解还是对计算机的处理都不是很友好。目前日志结构化信息的提取方法不够灵活,基本都是针对某种具体的日志需要进行编码提取结构化信息。例如,基于固定分隔符提取日志的提取方法,这种提取方式适合日志格式比较固定的日志,如以单分割符‘|’或多分隔符‘||’分割的日志。但是,基于固定分隔符提取日志的提取方法只适用于格式固定的日志,无法处理其他格式的日志。还有基于正则表达式的提取方式。正规表达式又称正规表示法、常规表示法(RegularExpression,在代码中常简写为regex、regexp或RE)。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎(引用自百度百科:http://baike.baidu.com/link?url=BCPBnr3ePyeoGzyQBSqnDN8xCnfLfpCNSQEIIHTB3lYN7IMCxL-LLv1ZgR4vNVda0ijM5icMh46nNzMgqJBl9q)。基于正则表达式的日志提取方法能够处理各种格式的日志,也是目前业界普遍的一种做法。但是在程序中硬编码正则表达式的方法不够灵活,只能处理单一格式的日志,而且无法自适应由业务需求或日志格式变化引起的变更。同时,提取的数据没有与其直接关联的元数据信息,无法自动导入目标数据库进行分析。另一方面,对于固定分隔符分割的日志,正则表达式提取方法效率较差。传统的日志提取方法需要日志使用方开发人员先理解日志的内容,然后根据应用的需求提取需要的信息。这种方法存在若干弊端:一方面,在很多机构中,特别是一些大型企业,日志的所有方和日志的使用方往往不在同一个团队,甚至不在同一部门。另一方面,日志格式灵活多变,有的日志极其复杂,对日志使用方而言如同天书,很难理解,而且目前没有一种规范来准确地描述日志的格式和业务含义。由于以上原因,为了提取日志的结构化信息,使用方往往要花费大量的时间和精力在沟通和理解所需的各种日志的格式。为了支持业务的发展,IT系统往往要做相应的变更。由此导致的日志格式变更很容易导致下游依赖相应日志的应用不能正确地解析变更后的日志,从而影响相应的业务系统。即使从管理角度可以解决变更问题,但是成本却很高。可能一个很小的日志格式变更,就要修改下游的若干系统,每个系统都需要测试和上线。为实现自适应自动提取日志结构化数据,本专利技术提出了日志结构化信息提取方法及日志结构化信息提取装置。日志结构化信息提取装置可为日志处理引擎。图1-图3示出了日志处理引擎所执行的日志结构化信息提取方法的示例性流程图,其至少可包括如下步骤:本文档来自技高网...

【技术保护点】
一种日志结构化信息提取方法,其特征在于,包括:获取日志文件和与之相应的日志DDL文件,所述日志DDL文件中包含所述日志文件中结构化信息的字段解析规则和字段定义;根据所述字段解析规则从所述日志文件中提取出字段并存储至输出文件;生成与所述输出文件对应的字段类型说明文件。

【技术特征摘要】
1.一种日志结构化信息提取方法,其特征在于,包括:
获取日志文件和与之相应的日志DDL文件,所述日志DDL文件中包含所述日志文件中结
构化信息的字段解析规则和字段定义;
根据所述字段解析规则从所述日志文件中提取出字段并存储至输出文件;
生成与所述输出文件对应的字段类型说明文件。
2.如权利要求1所述的方法,其特征在于,还包括:
根据所述字段类型说明文件生成建表脚本并提交给目标数据库;所述建表脚本用于所
述目标数据库创建空白数据库表,并加载所述输出文件中的字段至所述空白数据库表。
3.如权利要求1所述的方法,其特征在于,所述根据所述字段解析规则从所述日志文件
中提取出字段并存储至输出文件的操作,由HadoopMapReduce计算框架的Map函数执行。
4.如权利要求1-3任一项所述的方法,其特征在于,所述日志DDL文件包括:字段解析规
则列表;所述字段解析规则列表中包括N个字段解析规则;所述N不小于1;
每一字段解析规则包括前置处理规则、提取方式、提取方法参数和解析结果字段列表;
其中:
所述前置处理规则可为空;
所述解析结果字段列表包括至少一个解析结果字段;
所述至少一个解析结果字段的排列顺序与所述字段解析规则提取的字段排列顺序一
致;
每一所述解析结果字段包含字段名称、字段类型和属性;所述字段名称、字段类型和属
性用于表征所述字段定义。
5.如权利要求4所述的方法,其特征在于,
所述N个字段解析规则与N个输出文件一一对应;
所述根据所述字段解析规则从所述日志文...

【专利技术属性】
技术研发人员:沈丽忠朱志魏和唐景峰吴勇洪毅清
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1