一种日志格式转换方法及设备技术

技术编号:36168562 阅读:16 留言:0更新日期:2022-12-31 20:18
本申请实施例公开了一种日志格式转换方法及设备。属于电数字数据处理技术领域。获取待转换的日志数据与目标数据格式,并确定出与目标数据格式相对应的数据填充模板;基于开始标识与结束标识确定出日志数据中的多个待转换数据;基于预置分词树,依次对待转换数据中的多个字符进行字义检测,根据检测后的字义对多个待转换数据进行分类,得到多个数据集群;基于多个数据集群的类型,在数据填充模板中确定出相应的填充位置,并基于实际填充数据的大小,得到多个数据集群分别对应的参考地址,以将多个数据集群与参考地址进行映射;基于映射关系,对存在错误的数据进行重新填充,以完成数据格式转换。通过上述方法,对系统出现的问题及时进行检测。题及时进行检测。题及时进行检测。

【技术实现步骤摘要】
一种日志格式转换方法及设备


[0001]本申请涉及电数字数据处理
,尤其涉及一种日志格式转换方法及设备。

技术介绍

[0002]系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
[0003]对于软件系统,日志是非常重要的,但是当前往往通过记录文本文件方式,采用记事本、写字板等工具对日志进行记录,且记录文本时没有规范,浏览工具显示单一、难懂。对于没有软件开发基础的人而言,查看日志不直观,日志可读性比较差,对于开发人员而言查看日志效率较低,以致增加日志查看时间,难以对系统出现的问题及时进行解决。

技术实现思路

[0004]本申请实施例提供了一种日志格式转换方法及设备,用于解决如下技术问题:现有技术中开发人员对日志的查看所需的时间较长,以致难以对系统出现的问题进行及时解决。
[0005]本申请实施例采用下述技术方案:本申请实施例提供一种日志格式转换方法。包括,获取待转换的日志数据与目标数据格式,并在数据库中确定出与目标数据格式相对应的数据填充模板;确定日志数据中的开始标识与结束标识,基于开始标识与结束标识确定出日志数据中的多个待转换数据;基于预置分词树,依次对待转换数据中的多个字符进行字义检测,根据检测后的字义对多个待转换数据进行分类,得到多个数据集群;其中,同一个数据集群中的数据,按照在待转换数据中的先后顺序进行排列;基于多个数据集群的类型,在数据填充模板中确定出相应的填充位置,以将多个数据集群中的待转换数据填充至相应的填充位置,并基于实际填充数据的大小,得到多个数据集群分别对应的参考地址,以将多个数据集群与参考地址进行映射;在填充数据存在错误的情况下,基于多个数据集群与参考地址之间的映射关系,对存在错误的数据进行重新填充,以完成数据格式转换。
[0006]本申请实施例通过确定日志数据中的开始标识与结束标识,能够将日志数据进行划分,确定出需要进行数据转换的数据,能够使得转换后的数据清晰有条理。其次,本申请实施例通过对待转换数据进行字义检测,能够将待转换数据进行分类,从而根据字义类型将不同的待转换数据填充至相应的位置,以完成日志数据的格式转换。从而解决现有记录文本文件的方式不直观,以致开发人员需要花费较多时间进行查看的问题。
[0007]在本申请的一种实现方式中,基于预置分词树,依次对待转换数据中的多个字符进行字义检测之前,方法还包括:获取待转换数据中的文本数据,对文本数据进行文本拆分,以得到中文文本与数字文本;确定中文文本对应的字义类型,以及基于数字文本之前和/或之后的中文文本确定数字文本对应的字义类型,以根据不同的字义类型,对待转换数
据进行分类,以建立多个数据集群。
[0008]在本申请的一种实现方式中,确定中文文本对应的字义类型,具体包括:将中文文本中的待识别字符与预置分词树进行比对;在预置分词树中确定出当前待识别字符,并确定出待识别字符所对应的预置词语集;获取待识别字符在中文文本中相邻的若干个字符,将相邻的若干个字符与待识别字符组成待识别词语;在待识别词语存在于预置词语集的情况下,将待识别词语作为一个分词;基于预置分词树中的预置字义类型,确定出待转换数据的字义类型。
[0009]在本申请的一种实现方式中,基于预置分词树中的预置字义类型,确定出待转换数据的字义类型,具体包括:确定出待转换数据所对应的多个分词;基于多个分词分别对应的字义对多个分词进行分组;根据预置字义类型对应的预置权重,对每一个组对应的多个分词进行权重计算;将每一个组分别对应的计算后的权重结果进行比对,以根据比对结果确定出待转换数据的字义类型。
[0010]在本申请的一种实现方式中,基于数字文本之前和/或之后的中文文本确定数字文本对应的字义类型,具体包括:在字义类型对应为数字文本的情况下,确定位于数字文本之前和/或之后的中文文本;将数字文本之前和/或之后的中文文本与预置分词树进行比对;基于预置分词树,确定出数字文本之前和/或之后的中文文本所对应的分词集,以及基于预置分词树中的预置字义类型,确定出分词集中各分词的语义;将数量最多的语义作为数字文本的字义类型。
[0011]在本申请的一种实现方式中,在数据填充模板中确定出相应的填充位置,以将多个数据集群中的待转换数据填充至相应的填充位置,并基于实际填充数据的大小,得到多个数据集群分别对应的参考地址,以将多个数据集群与参考地址进行映射,具体包括:根据预设标识模板库,对多个数据集群进行不同的标识标注;在数据填充模板中,确定出与多个数据集群的标识一致的多个填充位置,作为参考填充位置;对数据集群中的待转换数据进行数据划分,得到各数据集群分别对应的多个划分后数据,并根据划分后的数据在数据集群中的位置先后顺序,对各数据集群分别对应的多个划分后的数据进行标号;其中,相邻的开始标识与结束标识之间的数据作为一条划分后的数据;将划分后的数据按照标号顺序依次转换至参考填充位置;其中,参考填充位置包括多个空白行,且每一个空白行对应填充一条划分后的数据;基于参考填充位置对应的实际填充数据的大小,获取参考填充位置对应的起始存储地址与结束存储地址,基于每个参考填充位置分别对应的起始存储地址与结束存储地址,建立每个参考填充位置分别对应的参考地址;将每个数据集群与参考地址进行映射,以确定出每个数据集群对应的填充位置。
[0012]在本申请的一种实现方式中,将多个数据集群中的待转换数据填充至相应的填充位置之后,方法还包括:获取每个填充位置分别对应的第一字符数量,以及获取与每个填充位置分别对应的数据集群中的第二字符数量;获取每个填充位置分别对应的转换后的文本数据的填充序号,以及获取转换后的文本数据在数据集群中的位置序号;将第一字符数量与第二字符数量进行比对,以及将填充序号与位置序号进行比对;在第一字符数量与第二字符数量相同,且填充序号与位置序号一致的情况下,确定数据格式转换正确。
[0013]本申请实施例通过对转换后的文本数据进行字符数量与位置序号的比对,能够确定转换后的数据是否出现遗漏或者重复转换的情况,以及是否出现位置填充错误的情况。
从而能够及时发现日志转换过程中出现的问题,及时对其进行更改,以确保日志格式转换的稳定运行。
[0014]在本申请的一种实现方式中,在填充数据存在错误的情况下,基于多个数据集群与参考地址之间的映射关系,对存在错误的数据进行重新填充,具体包括:在第一字符数量与第二字符数量不一致,和/或填充序号与位置序号不一致的情况下,基于出现错误的填充位置所对应的参考地址,确定出有映射关系的数据集群;将出现错误的填充位置所对应的转换后的文本数据进行删除处理,并将有映射关系的数据集群中的文本数据重新转换至出现错误的填充位置;对出现错误的填充位置所对应的转换后的文本数据进行重新检测,若连续出现错误的次数大于预设错误阈值,则发出警报提醒。
[0015]在本申请的一种实现方式中,确定日志数据中的开始标识与结束标识,基于开始标识与结束本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志格式转换方法,其特征在于,所述方法包括:获取待转换的日志数据与目标数据格式,并在数据库中确定出与所述目标数据格式相对应的数据填充模板;确定所述日志数据中的开始标识与结束标识,基于所述开始标识与所述结束标识确定出所述日志数据中的多个待转换数据;基于预置分词树,依次对待转换数据中的多个字符进行字义检测,根据检测后的字义对所述多个待转换数据进行分类,得到多个数据集群;其中,同一个数据集群中的数据,按照在所述待转换数据中的先后顺序进行排列;基于所述多个数据集群的类型,在所述数据填充模板中确定出相应的填充位置,以将所述多个数据集群中的待转换数据填充至所述相应的填充位置,并基于实际填充数据的大小,得到所述多个数据集群分别对应的参考地址,以将所述多个数据集群与所述参考地址进行映射;在所述填充数据存在错误的情况下,基于所述多个数据集群与所述参考地址之间的映射关系,对存在错误的数据进行重新填充,以完成数据格式转换。2.根据权利要求1所述的一种日志格式转换方法,其特征在于,所述基于预置分词树,依次对待转换数据中的多个字符进行字义检测之前,所述方法还包括:获取所述待转换数据中的文本数据,对所述文本数据进行文本拆分,以得到中文文本与数字文本;确定所述中文文本对应的字义类型,以及基于所述数字文本之前和/或之后的中文文本确定所述数字文本对应的字义类型,以根据不同的字义类型,对所述待转换数据进行分类,以建立所述多个数据集群。3.根据权利要求2所述的一种日志格式转换方法,其特征在于,所述确定所述中文文本对应的字义类型,具体包括:将所述中文文本中的待识别字符与所述预置分词树进行比对;在所述预置分词树中确定出当前待识别字符,并确定出所述待识别字符所对应的预置词语集;获取所述待识别字符在所述中文文本中相邻的若干个字符,将所述相邻的若干个字符与所述待识别字符组成待识别词语;在所述待识别词语存在于所述预置词语集的情况下,将所述待识别词语作为一个分词;基于所述预置分词树中的预置字义类型,确定出所述待转换数据的字义类型。4.根据权利要求3所述的一种日志格式转换方法,其特征在于,所述基于所述预置分词树中的预置字义类型,确定出所述待转换数据的字义类型,具体包括:确定出所述待转换数据所对应的多个分词;基于所述多个分词分别对应的字义对所述多个分词进行分组;根据所述预置字义类型对应的预置权重,对每一个组对应的多个分词进行权重计算;将所述每一个组分别对应的计算后的权重结果进行比对,以根据比对结果确定出所述待转换数据的字义类型。5.根据权利要求3所述的一种日志格式转换方法,其特征在于,所述基于所述数字文本
之前和/或之后的中文文本确定所述数字文本对应的字义类型,具体包括:在所述字义类型对应为数字文本的情况下,确定位于所述数字文本之前和/或之后的中文文本;将所述数字文本之前和/或之后的中文文本与所述预置分词树进行比对;基于所述预置分词树,确定出所述数字文本之前和/或之后的中文文本所对应的分词集;以及基于所述预置分词树中的预置字义类型,确定出所述分词集中各分词的语义;将数量最多的语义作为所述数字文本的字义类型。6.根据权利要求1所述的一种日志格式转换方法,其特征在于,所述在所述数据填充模板中确定出相应的填充位置,以将所述多个数据集群中的待转换数据填充至所述相应的填充位置,并基...

【专利技术属性】
技术研发人员:张开通卓长立高玉芝高朝
申请(专利权)人:济南丽阳神州智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1