本发明专利技术公开了一种可继承可扩展的数据处理方法,包括以下步骤:1)将日志中通用的解析方式直接写入一个父解析规则中;2)将父解析规则与若干子解析规则之间构建相关性,使解析表达式不同的子解析规则通过继承的方式,直接获得父解析规则中的解析方式;3)子解析规则中对父解析规则不满足的解析方式,可以对父解析规则进行重新改写,实现对父解析规则的扩展。本发明专利技术还将此数据处理方法应用于日志的解析过程中,对解析规则进行优化,减少解析规则中的冗余部分,方便解析规则的管理与新增,减少解析规则编写人员重复作业内容,减少解析规则数量,提升系统性能,通过继承方式解决不同解析规则中表达相同含义字段取值困难的问题。
An inheritable and extensible data processing method and its application to parsing log
【技术实现步骤摘要】
一种可继承可扩展的数据处理方法及其对解析日志的应用
本专利技术涉及计算机数据处理
,具体是指一种可继承可扩展的数据处理方法及其对日志的解析方法。
技术介绍
互联设备每天都会产生大量的日志文件,这些日志文件一般是非结构化的。在大数据
,常常需要对日志进行解析,将非结构化日志解析为结构化的数据,便于数据的统计和分析等。目前的日志解析规则的编写主要通过,解析表达式(比如正则表达式)和赋值字段部分组成。此种方式会导致不同的解析规则中可能会存在相同的处理逻辑。虽然已经存在一些模块化解析规则的方式,来提高解析规则的复用性,从而减少解析规则之间的冗余,来减轻冗余的现象。但是对于一些相似的日志(比如字段赋值规律完全相同),只是使用的解析表达式不同,在此类情况下,由于解析表达式的不同,所以需要重复编写两个规则,以适配不同的日志格式,然后再重写相同的字段赋值规则。如果此时的字段赋值规则过于复杂,那么就需要解析规则的编写人员,花费接近两倍的时间来完成这个任务(每一种日志都需要重复编写一次字段赋值规则)。同时将类似的内容重复写成两种规则,从而剥离了解析规则之间的相关性,增加了解析规则的数量。随着时间的推移会导致解析规则数量越来越多,同时规则内部的冗余也会越来越严重,从而给相关人员带来管理上的负担。目前使用较多的是模块化的解析规则方式,即将解析规则根据使用方式的不同进行拆分。比如对时间”Oct1010:10:10”格式转换成“2019-10-1010:10:10”格式的解析规则单独封装为一篇解析规则,在某一篇解析规则需要使用到这类格式的时间处理时可以声明调用此篇解析规则。在此例子中,将具体的处理逻辑交由特定的解析规则来处理,编写解析规则的人员可以不需要重复编写处理时间格式的解析规则逻辑。并且可以减少解析规则的数量(重复的解析规则逻辑可以单独抽离出来形成模块)。还有通过界面可是话的方式,提供用户多级匹配的方式,专利201810183464.9,名称为《日志解析方法、系统及设备》通过响应于用户针对可视化表格中显示的日志样本触发的第一解析规则配置事件,在所述日志样本所属类型对应的自定义规则集中添加基于所述第一解析规则配置事件中用户自定义的第一配置参数生成的第一解析规则;根据所述第一解析规则,对所述日志样本进行解析得到第一解析结果;在所述可视化表格的空闲行中展示所述第一解析结果。使用了自定义规则集和界面可视化来减轻用户编写解析规则的难度和提高自定义解析规则的复用度。虽然上述的方法已经可以大大减少解析规则中相同逻辑的规则重复出现,解析规则相互之间过于冗余的问题。但对于字段赋值和字段取值的不一致性问题还是存在。下面对于字段赋值和字段取值不一致性进行说明。对于字段赋值而言,存在一些相似的日志(比如字段赋值规律完全相同),只是使用的解析表达式不同,在此类情况下,由于解析表达式的不同,所以需要重复编写两个规则,以适配不同的日志格式,然后再重写相同的字段赋值规则。如果此时的字段赋值规则过于复杂,那么就需要解析规则的编写人员,花费接近两倍的时间来完成这个任务(每一种日志都需要重复编写一次字段赋值规则)。而字段取值的不一致性带来的问题可能会更为明显。在解析规则中往往需要加入一些标签字段用于区分不同的厂商、设备型号,方便在后续的数据分析中可以直接进行筛选。但是这些打标签的字段取值相较于从日志中直接提取的取值而言过于依赖于解析人员。比如同样是针对于同一个厂商的两种不同设备,由两个解析人员负责编写解析规则,如果两人没有进行信息同步,其中一个解析人员可能会在productName(厂商名称)字段上写上厂商的中文名称,而另外一个解析人员可能更加倾向于使用厂商的英文名称,在这种情况下虽然取值代表的含义相同,但是在不同规则中相同字段表达相同含义时确实会存在不同的取值。
技术实现思路
针对现有技术的不足,本专利技术的目的在于提供一种可继承可扩展的数据处理方法,该数据处理方法可以让解析人员将一些通用的方式直接写在父解析规则中,而子解析规则可以通过继承而直接获得父解析规则中这些通用方式,同时子规则中对于父规则中不满足的操作也可以重新进行改写,从而达到了对父规则进行扩展的能力。本专利技术的另一个目的在于提供上述可继承可扩展的数据处理方法在日志解析方面的具体应用。为了实现上述目的,本专利技术通过下述技术方案实现:一种可继承可扩展的数据处理方法,包括以下步骤:(1)将日志中通用的解析方式直接写入一个父解析规则中;(2)将父解析规则与若干子解析规则之间构建相关性,使解析表达式不同的子解析规则通过继承的方式,直接获得父解析规则中的解析方式;(3)子解析规则中对父解析规则不满足的解析方式,可以对父解析规则进行重新改写,实现对父解析规则的扩展。本技术方案的工作原理为,可以让解析人员将一些通用的方式直接写在父解析规则中,而子解析规则可以通过继承而直接获得父解析规则中的这些通用的方式。比如针对字段赋值问题,解析人员就可以将字段重复赋值的操作全部写到一个父解析规则中,而针对解析表达式不同但赋值规则相同的子规则,解析人员只需要将不同的子解析规则继承于同一个字段赋值的父解析规则就可以获得完全相同字段赋值方式,此时只需要重新解析规则的解析表达式即可。而对于字段取值不一致问题,解析人员可以写一个父解析规则,将需要子解析规则保持一致的字段在此赋值,并且保证子解析规则继承于此父解析规则,那么子解析规则中此类字段的取值也都将保持一致,并且在后续改动这些字段的取值时只需要改动一个父解析规则,而不需要改动所有的子规则。同时子规则中对于父规则中不满足的操作也可以重新进行改写,包括解析表达式,字段赋值等操作,从而达到了对父规则进行扩展的能力。为了更好地实现该数据处理方法,进一步地,所述步骤(1)中通用的日志解析方式包括日志中字段赋值以及日志中字段取值。为了更好地实现该数据处理方法,进一步地,所述步骤(3)中子解析规则对父解析规则进行重新改写的方式包括解析表达式、字段赋值。上述述的一种可继承可扩展数据处理方法对解析日志的应用,包括以下步骤:(1)将日志中通用的解析方式构建成父解析规则类;(2)输入相关的子解析规则表达式;(3)根据子解析规则表达式,生成相应的解析规则对象;(4)根据解析规则对象匹配父解析规则类,生成相应的子解析规则;(5)将生成的子解析规则加载系统,然后用其对日志进行解析,输出解析结果。为了更好地实现该日志解析方法的具体应用,进一步地,所述步骤(2)中,所述输入的解析规则表达式包括JSON格式、XML格式、YSML格式、WDDX格式。为了更好地实现该日志解析方法的具体应用,进一步地,其特征在于,所述步骤(4)中,生成相应的子解析规则的具体过程为:(3.1)根据解析规则对象,判断生成的规则是否存在依赖的父解析规则类;(3.2)如果存在父解析规则类依赖,则判断所依赖的父解析规则类是否已经生成;(3.3)如果依赖的本文档来自技高网...
【技术保护点】
1.一种可继承可扩展的数据处理方法,其特征在于,包括以下步骤:/n(1)将日志中通用的解析方式直接写入一个父解析规则中;/n(2)将父解析规则与若干子解析规则之间构建相关性,使解析表达式不同的子解析规则通过继承的方式,直接获得父解析规则中的解析方式;/n(3)子解析规则中对父解析规则不满足的解析方式,可以对父解析规则进行重新改写,实现对父解析规则的扩展。/n
【技术特征摘要】
1.一种可继承可扩展的数据处理方法,其特征在于,包括以下步骤:
(1)将日志中通用的解析方式直接写入一个父解析规则中;
(2)将父解析规则与若干子解析规则之间构建相关性,使解析表达式不同的子解析规则通过继承的方式,直接获得父解析规则中的解析方式;
(3)子解析规则中对父解析规则不满足的解析方式,可以对父解析规则进行重新改写,实现对父解析规则的扩展。
2.根据权利要求1所述的一种可继承可扩展的数据处理方法,其特征在于,所述步骤(1)中通用的日志解析方式包括日志中字段赋值以及日志中字段取值。
3.根据权利要求1或2所述的一种可继承可扩展的数据处理方法,其特征在于,所述步骤(3)中子解析规则对父解析规则进行重新改写的方式包括解析表达式、字段赋值。
4.根据权利要求1~3任一项所述的一种可继承可扩展数据处理方法对解析日志的应用,包括以下步骤:
(1)将日志中通用的解析方式构建成父解析规则类;
(2)输入相关的子解析规则表达式;
(3)根据子解析规则表达式,生成相应的解析规则对象;
(4)根据解析规则对象匹配父解析规则类,生成相应的子解析规则;
(5)将生成的子解析规则加载系统,然后用其对日志进行解析,输出解析结果。
5.根据权利要求4所述的一种可继承可扩展数据处理方法对解析日志的应用,其特征在于,所述步骤(2)中,所述输入的解析规则表达式包括JSON格式、XML格式、YSML格式、WDDX格式。
6.根据权利要求4或5所述的一种可继承可扩展...
【专利技术属性】
技术研发人员:施展,范渊,
申请(专利权)人:杭州安恒信息技术股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。