一种日志数据压缩方法、装置、设备和存储介质制造方法及图纸

技术编号:25755955 阅读:14 留言:0更新日期:2020-09-25 21:05
本发明专利技术实施例公开了一种日志数据压缩方法、装置、设备及存储介质。包括:对日志数据进行聚类获得日志数据组;确定每一个所述日志数据组的模式标识;将每一个所述日志数据组中的日志数据转换为模式标识和参数值结合表示的形式,其中,在相同的日志数据组中每一个日志数据的参数值互不相同;对转换后的日志数据进行压缩。在对日志数据压缩的过程中,首先对日志数据进行聚类获得日志数据组,获得每一个日志数据组所对应的模式标识,并将同一个日志数据组中的日志数据转换为模式标识和参数值结合的表示形式,以实现对日志数据的简化表示,在对简化后的日志数据进行压缩的过程中,能够显著提高日志数据压缩的效率。

【技术实现步骤摘要】
一种日志数据压缩方法、装置、设备和存储介质
本专利技术实施例涉及数据处理
,尤其涉及一种日志数据压缩方法、装置、设备及存储介质。
技术介绍
随着信息科技的发展,在各种社会和经济活动中会产生大量的数字信息,例如,互联网监控、运维系统、证券或者电子商务的交易系统,在运作过程中会产生大量的日志数据,并且这些日志数据对后期的系统维护以及业务查询中有重要的作用,因此通常需要将大量的日志数据进行压缩后进行保存。但是在对大量的日志数据进行存储时,通常采用的是直接对获取的日志数据进行压缩,例如,gzip中的LZ77算法,直接对获取的数据进行压缩,并且需要涉及到选择窗口的大小、前向缓冲区的大小、数据本身的熵等多个因素,因此现有的日志数据压缩方式压缩过程非常耗时。
技术实现思路
本专利技术实施例提供了一种创建表的方法、装置、设备及存储介质。以实现异构数据库之间准确高效的进行表的创建。第一方面,本专利技术实施例提供了一种日志数据压缩方法,包括:对日志数据进行聚类获得日志数据组;确定每一个所述日志数据组的模式标识;将每一个所述日志数据组中的日志数据转换为模式标识和参数值结合表示的形式,其中,在相同的日志数据组中每一个日志数据的参数值互不相同;对转换后的日志数据进行压缩。第二方面,本专利技术实施例提供了一种日志数据压缩装置,包括:日志数据组获取模块,用于对日志数据进行聚类获得日志数据组;模式识别确定模块,用于确定每一个所述日志数据组的模式标识;<br>日志数据转换模块,用于将每一个所述日志数据组中的日志数据转换为模式标识和参数值结合表示的形式,其中,在相同的日志数据组中每一个日志数据的参数值互不相同;日志数据压缩模块,用于对转换后的日志数据进行压缩。第三方面,本专利技术实施例提供了一种设备,设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本专利技术任意实施例中的方法。第四方面,本专利技术实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例的方法。本专利技术实施例的技术方案,在对日志数据压缩的过程中,首先对日志数据进行聚类获得日志数据组,获得每一个日志数据组所对应的模式标识,并将同一个日志数据组中的日志数据转换为模式标识和参数值结合的表示形式,以实现对日志数据的简化表示,在对简化后的日志数据进行压缩的过程中,能够显著提高日志数据压缩的效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1是本专利技术实施例一提供的日志数据压缩方法的流程图;图2是本专利技术实施例二提供的创日志数据压缩方法的流程图;图3是本专利技术实施例三提供的日志数据压缩装置的结构示意图;图4是本专利技术实施例四提供的设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1是本专利技术实施例一提供的日志数据压缩方法的流程图,本实施例可适用于对日志数据进行压缩的情况,该方法可以由本专利技术实施例中的日志数据压缩装置来执行,该装置可以采用软件和/或硬件的方式实现。如图1所示,该方法具体包括如下操作:步骤101,对日志数据进行聚类获得日志数据组。可选的,对日志数据进行聚类获得日志数据组,可以包括:确定每一个日志数据的属性信息,其中,属性信息包括日志格式;将具有相同属性信息的日志数据组成一个日志数据组。具体的说,本实施方式主要应用于大量的日志数据进行压缩的场景,因此日志数据具体可以是上万条甚至更多,并且当日志数据的数据量越大,则采用本申请的方式进行压缩,所提高的效率也就越明显。其中,在对日志数据进行聚类时,就是将具有相同日志格式的日志数据组成一个日志组,例如,日志数据1如下所示:{"beat":{"name":"tyrion-macbook","version":"5.3.2"},"fields":{"appname":"app1"},"@timestamp":"2017-05-02T09:37:36.849Z","type":"log"},日志数据2如下所示:{"beat":{"name":"tyrion-ebcbook","version":"4.2.2"},"fields":{"appname":"app2"},"@timestamp":"2017-06-02T09:24:36.732Z","type":"log"},其中,日志数据1和日志数据2具有如下相同的日志格式:{"beat":{"name":"***","version":"***"},"fields":{"appname":"***"},"@timestamp":"***","type":"log"},其中,日志数据1和日志数据2的不相同的部分用“***”进行标记,则在聚类时将具有相同日志格式的日志数据1和日志数据2组成同一个日志数据组,当然,本实施方式中仅是以两个日志数据为例进行的举例说明,而在实际聚类过程中由于日志数据非常庞大,因此在进行聚类之后日志数据组的数量可以为多个,例如,经过聚类之后可以获得上百个日志数据组,并且每一个日志数据组中可以包括多个具有相同日志格式的日志数据,本申请实施方式中并不限定日志数据组的具体数量,以及每一个日志数据组中所包含的日志数据的具体条数,只要能够适用于对大量日志数据进行压缩的都是在本申请的保护范围内。步骤102,确定每一个日志数据组的模式标识。可选的,确定每一个日志数据组的模式标识,可以包括:获取每一个日志数据组中的日志数据所具有的同一属性信息;根据属性信息查询预设列表获得每一个日志数据组的模式标识,其中,预设列表中保存了属性信息与模式标识的对应关系,并且模式标识要小于属性信息所占用的存储空间。具体的说,在本实施方式中,在对多个日志数据进行聚类获得至少一个本文档来自技高网...

【技术保护点】
1.一种日志数据压缩方法,其特征在于,包括:/n对日志数据进行聚类获得日志数据组;/n确定每一个所述日志数据组的模式标识;/n将每一个所述日志数据组中的日志数据转换为模式标识和参数值结合表示的形式,其中,在相同的日志数据组中每一个日志数据的参数值互不相同;/n对转换后的日志数据进行压缩。/n

【技术特征摘要】
1.一种日志数据压缩方法,其特征在于,包括:
对日志数据进行聚类获得日志数据组;
确定每一个所述日志数据组的模式标识;
将每一个所述日志数据组中的日志数据转换为模式标识和参数值结合表示的形式,其中,在相同的日志数据组中每一个日志数据的参数值互不相同;
对转换后的日志数据进行压缩。


2.根据权利要求1所述的方法,其特征在于,所述对日志数据进行聚类获得日志数据组,包括:
确定每一个日志数据的属性信息,其中,所述属性信息包括日志格式;
将具有相同属性信息的日志数据组成一个所述日志数据组。


3.根据权利要求2所述的方法,其特征在于,所述确定每一个所述日志数据组的模式标识,包括:
获取每一个所述日志数据组中的日志数据所具有的同一属性信息;
根据所述属性信息查询预设列表获得每一个所述日志数据组的模式标识,其中,所述预设列表中保存了属性信息与模式标识的对应关系,并且所述模式标识要小于所述属性信息所占用的存储空间。


4.根据权利要求3所述的方法,其特征在于,所述将每一个所述日志数据组中的日志数据转换为模式标识和参数值结合表示的形式,包括:
确定每一个所述日志数据所位于的日志数据组的模式标识;
将每一个日志数据的属性信息采用所述模式标识进行替换;
将每一个所述日志数据中除去所述属性信息的部分作为所述参数值;
将每一个所述日志数据的参数值连接到所述属性信息之后,以获得所述转换后的日志数据。


5.根据权利要求1所述的方法,...

【专利技术属性】
技术研发人员:饶琛琳梁玫娟
申请(专利权)人:北京优特捷信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1