基于分类的通用模板日志解析方法技术

技术编号:23400485 阅读:19 留言:0更新日期:2020-02-22 12:42
本发明专利技术涉及一种基于分类的通用模板日志解析方法,对不同种类的日志进行分类处理,通过统一编码后,再通过创建的日志模板进行具体解析、分类和转换,形成统一标准化的输出数据,本发明专利技术方法可以覆盖绝大部分的日志解析的模板编写与归一化数据的映射工作。可以通过本发明专利技术方法轻松解决种类繁多的日志解析与数据归一化的工作,实现了解析日志数据统一管理和方便提取,杜绝失效数据,并提升工作效率。

A general template log parsing method based on Classification

【技术实现步骤摘要】
基于分类的通用模板日志解析方法
本专利技术涉及一种数据管理技术,特别涉及一种基于分类的通用模板日志解析方法。
技术介绍
不同厂商的设备产生了大量自定义格式的日志数据,导致综合管理和预警平台在日志集中管理解析过程中疲于应付,重复工作屡屡发生。对于软件快速迭代的设备,在日志结构不能继承先前版本的情况,往往会导致日志解析出的数据存在明显的错误,非常不利于管理和预警平台快速准确的监测系统的运行情况。当前一些日志解析软件工具,如logstash,Graylog,Nagios等虽然可以解析日志数据,但是配置复杂,并且针对特定的场景在使用方面存在许多掣肘情况。
技术实现思路
本专利技术是针对各种产品日志解析繁琐,不便于数据统计整理的问题,提出了一种基于分类的通用模板日志解析方法,对不同设备的日志形成各自的模板,然后使用解析模板统一进行解析以达到解析各类日志的目的。本专利技术的技术方案为:一种基于分类的通用模板日志解析方法,具体包括如下步骤:1)对不同种类的日志进行分类处理:第一步:将产品基本信息进行分类编码;第二步:将在第一步编码的同时,增加网络地址与编码信息的映射信息,以确定日志的唯一输入源;第三步:在前两步编码为父目录的基础上,以时间为基线,对不同日期,时间或时刻的日志数据来源进行进一步分类编码,在完成上述设备型号编码以后,将为形成编码的设备创建目录,以作为区别于其他设备的日志数据的保存目录;2)创建日志模板,日志模板形成树结构对各种编码后日志进行具体解析、分类和转换,形成统一标准化的输出数据;日志模板为XML模板,分为三级,第一级为SIPAI-Extract,作为父元素;第二级为DataSource数据源,对应步骤1)中分类编码信息,以及数据属性;第三级为对第二级数据进行解析、分类和转换形成统一标准化的输出数据。所述步骤2)中日志模板第三级包括:DataModel数据模型,定义日志的具体解析规则,通过其子元素构建某一具体日志的解析规则,指定提取结果输出的具体数据表;ClassifyModel分类模型,数据提取出的特征字符作为分表标记,对应到相应的DataModel中的数据,区分同一厂商产品的数据源下存在多种日志格式,如果只存在单一的日志格式,则无需使用;ConvertTable转换表格,将日志数据归一化处理后,与归一化的字典表进行映射,通过映射达到统一入库,形成统一标准化的输出数据。本专利技术的有益效果在于:本专利技术基于分类的通用模板日志解析方法,通过使用日志模板的自定义元素,以及元素的属性与子元素,本专利技术方法可以覆盖绝大部分的日志解析的模板编写与归一化数据的映射工作。可以通过本专利技术方法轻松解决种类繁多的日志解析与数据归一化的工作,实现了解析日志数据统一管理和方便提取,杜绝失效数据,并提升工作效率。附图说明图1为本专利技术基于分类的通用模板日志解析方法总体流程图。具体实施方式如图1所示基于分类的通用模板日志解析方法总体流程图,日志来源包括防火墙/入侵检测等安全产品日志,Windows/Linux等主机日志,路由器/交换机/集线器等网络设备日志,数据库/应用系统等日志,作为通用模板日志解析方案的输入数据。为解决种类繁多的日志解析工作,首先对不同种类的日志进行分类处理,第一步:将产品基本信息进行分类编码如下表1所示,分类中编号为自定义编号或输入后根据规则随机生成编号,且保持对以后版本的支持;厂商信息:给每个厂商一个统一编号;产品大类:为区分同一厂商的不同设备;产品名称为了用了区分同一设备厂商的同一种产品大类有不同种产品名称;版本信息:针对相同产品的不同版本进行编码。表1厂商信息产品大类产品名称版本信息V+4位十机制P+3位十机制D+3位十进制C+3位十进制以Oracle公司的MySQL5.7版本为例,可编码为V0009P009D002C002唯一编码。在实际的使用过程中,可能会遇到相同版本的情况,为了更好的明确日志的来源,第二步:将在以上编码的同时,增加网络地址与编码信息的映射信息,以确定日志的唯一输入源。如在实际的现场环境中,有192.168.1.21—192.168.1.25范围的IP使用的是相同的版本的设备,为了区分其不同来源将其IP进行映射。如表2所示。表2IP编号192.168.1.21N001192.168.1.22N002192.168.1.23N003192.168.1.24N004192.168.1.25N005第三步:以编码为父目录的基础上,以时间为基线,对不同日期,小时,分钟(时间颗粒度可根据实际的需求进行定制)的日志数据来源进行进一步分类。在完成具体设备型号编码以后,将为形成编码的设备创建目录,以作为区别于其他设备的日志数据的保存目录。这样做的目的有两个,一是缩小日志解析的查找范围,二是为数据打标签,为下来的原始日志查询或者按时间段进行全文检索等操作做前期准备。以下为分钟为时间颗粒度,最终带有时间信息的日志数据为:/Data/log/V061P020D001C011N001/20181023/09/15/192.168.52.131_oracle.log。在完成设备日志编码分类,并完成集中化采集中心的日志存储目录创建以后,将对采集的原始日志数据做进一步的解析工作,以达到种类繁多的日志数据的归一化工作。为了对种类繁多的设备日志进行解析,采用一种自主开发的日志模板,对不同设备的日志形成各自的日志模板,在日志模板中进行日志归一化数据的映射处理,便于日志解析后数据存储和提取。1、本专利技术中的日志模板,以XML形式体现(当前仅对XML模板进行支持),并在XML中,将根据日志解析的需求,自定义XML文件中的相关元素,属性,标签等关键字,日志模板形成树结构对各种编码后日志进行具体解析、分类和转换,形成统一标准化的输出数据。日志模板中的必要元素:SIPAI-Extract(为XML模板的一级元素,该元素作为本文方法中的日志模板的所有元素的父元素,在整个日志模板中起到每一日志模板中都需要包含该元素。本设计方法中强制规定所有的自定义模板元素的使用,都必须要在该父元素内使用,该元素强调的是象征意义,功能上的意义不大。DataSource(数据源)为XML模板的二级元素,目的是为了配置厂商产品编号信息明确该模板可以解析的日志数据,以及日志数据的压缩方式和编码格式等信息。DataModel(数据模型)为XML模板的三级元素,该元素中定义了日志的具体解析规则,通过本文档来自技高网...

【技术保护点】
1.一种基于分类的通用模板日志解析方法,其特征在于,具体包括如下步骤:1)对不同种类的日志进行分类处理:/n第一步:将产品基本信息进行分类编码;/n第二步:将在第一步编码的同时,增加网络地址与编码信息的映射信息,以确定日志的唯一输入源;/n第三步:在前两步编码为父目录的基础上,以时间为基线,对不同日期,时间或时刻的日志数据来源进行进一步分类编码,在完成上述设备型号编码以后,将为形成编码的设备创建目录,以作为区别于其他设备的日志数据的保存目录;2)创建日志模板,日志模板形成树结构对各种编码后日志进行具体解析、分类和转换,形成统一标准化的输出数据;/n日志模板为XML模板,分为三级,/n第一级为SIPAI-Extract,作为父元素;/n第二级为DataSource数据源,对应步骤1)中分类编码信息,以及数据属性;/n第三级为对第二级数据进行解析、分类和转换形成统一标准化的输出数据。/n

【技术特征摘要】
1.一种基于分类的通用模板日志解析方法,其特征在于,具体包括如下步骤:1)对不同种类的日志进行分类处理:
第一步:将产品基本信息进行分类编码;
第二步:将在第一步编码的同时,增加网络地址与编码信息的映射信息,以确定日志的唯一输入源;
第三步:在前两步编码为父目录的基础上,以时间为基线,对不同日期,时间或时刻的日志数据来源进行进一步分类编码,在完成上述设备型号编码以后,将为形成编码的设备创建目录,以作为区别于其他设备的日志数据的保存目录;2)创建日志模板,日志模板形成树结构对各种编码后日志进行具体解析、分类和转换,形成统一标准化的输出数据;
日志模板为XML模板,分为三级,
第一级为SIPAI-Extract,作为父元素;
第二级为DataSource数据源,对应...

【专利技术属性】
技术研发人员:朱连凯王英任军锋陆炜陈政熙
申请(专利权)人:上海工业自动化仪表研究院有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1