日志压缩方法及日志解压缩方法技术

技术编号:29330491 阅读:21 留言:0更新日期:2021-07-20 17:47
本发明专利技术实施例提供了一种日志压缩方法及日志解压缩方法,日志压缩方法首先确定待压缩日志文件中的字符串;然后基于字符串与编码元素的对应关系,对待压缩日志文件进行压缩;其中,对应关系基于历史日志文件确定。本发明专利技术实施例中引入通过历史日志文件确定的字符串与编码元素的对应关系,可以直接根据对应关系对待压缩日志文件进行压缩,简化了日志压缩过程,整个过程不需要很强的专业知识。而且,字符串的长度可以根据需要进行灵活选取,可以提供灵活的压缩比率。另外,由于对待压缩日志文件的压缩过程就是编码过程,因此可以一定程度上对待压缩日志文件进行加密,保证了待压缩日志文件的保密性。

【技术实现步骤摘要】
日志压缩方法及日志解压缩方法
本专利技术涉及互联网
,更具体地,涉及日志压缩方法及日志解压缩方法。
技术介绍
随着计算机、通信、网络技术的发展,许多公司、企业、运营商都拥有自己的IT系统和网络设备。对于各种软件、系统、设备的管理,不仅仅需要关注提供的服务和功能,还需要进一步了解系统的访问情况、吞吐量、用户的异常行为以及系统的故障告警等信息,以改善服务内容和质量,提升用户体验,最终提高企业的竞争力。而日志在这一过程中成为了一种重要的资源。例如,电子商务服务商通过网站服务日志,可以挖掘隐含在其内部的商业价值,并将描述用户行为的数据转换为决策者可以利用的有效信息,为经营者提供决策支持。日志是需要处理的常见数据,是系统运行过程中由程序打印的一些重要业务节点、任务参数、系统状态、系统故障等信息的集合。用户的各种软件、系统、设备、网络节点都会产生日志信息,随着网络节点的增加,业务复杂程度的升高,产生了海量的日志数据。这些海量日志文件的收集和存储成为了一个挑战,比较简单的方法是1)购买专门的存储设备扩大存储空间,2)删除相对较旧的日志文件。对于1),需要增加用户购买存储设备的成本;而对于2),随着业务的演变,数据的时效性已经往往不满足于按天、按周分析,比如广告投放效果数据等,也许需要长期保存。由于不经过处理的原始日志文件占用了较大的存储空间,为了再尽量不增加成本的情况下长期的保存日志文件,对日志文件进行压缩和解压缩成为了不可避免的问题。在现有技术中存在着各种日志压缩方法,例如:有方法是,首先判断日志中所述DNS的域名是否属于260万域名;当属于以上260万域名中的DNS时,则对所述DNS原始日志进行分析,并匹配用户账户、计算PV、访问时间点均值、访问时间点方差,最终多条记录的被合并成一条记录,同时删去原始日志。另有方法是:首先获取通讯网络中的第一网络设备产生的历史告警日志集合;基于历史告警日志集合中的历史告警日志的产生时间戳,对历史告警日志集合进行划分,得到多个历史告警日志子集合,每个历史告警日志子集合中的所有历史告警日志在时序上连续;确定历史告警日志集合中的告警类型与多个历史告警日志子集合的对应关系;基于对应关系对历史告警日志集合中的告警类型进行聚类处理,以生成至少一个关联规则;基于至少一个关联规则对多个待处理告警日志进行压缩处理,以得到告警类型为根因告警类型的告警日志。现有技术中提供的上述日志压缩方法,均是基于规则实现,这些规则必须由相关专家提供,且对日志格式有较大的要求,需要特定的专家归纳总结日志特点,无法对所有格式的日志均实现压缩。
技术实现思路
为克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供了一种日志压缩方法及日志解压缩方法。第一方面,本专利技术实施例提供了一种日志压缩方法,包括:确定待压缩日志文件中的字符串;基于字符串与编码元素的对应关系,对所述待压缩日志文件进行压缩;其中,所述对应关系基于历史日志文件确定。优选地,所述对应关系具体通过如下方法确定:确定所述历史日志文件中每个字符串的长度以及出现的频率;将每个字符串的长度以及出现的频率的乘积作为权重,基于初始编码元素集合,采用K阶哈夫曼编码算法,确定每个字符串对应的编码元素。优选地,所述基于初始编码元素集合,采用K阶哈夫曼编码算法,确定每个字符串对应的编码元素,具体包括:去除所述初始编码元素集合中在所述历史日志文件中出现的初始编码元素,得到备选编码元素集合;基于所述备选编码元素集合,采用K阶哈夫曼编码算法,确定每个字符串对应的编码元素。优选地,所述确定所述历史日志文件中每个字符串的长度以及出现的频率之前,还包括:将所述历史日志文件中每条记录的时间部分进行格式归一化;基于预设分隔符,对格式归一化后的所述历史日志文件进行分词处理,确定所述历史日志文件中的字符串。优选地,所述基于字符串与编码元素的对应关系,对所述待压缩日志文件进行压缩,具体包括:基于所述对应关系,确定所述待压缩日志文件中每个字符串对应的编码元素;基于所述编码元素,对所述待压缩日志文件进行压缩。优选地,所述字符串为单词或短句。第二方面,本专利技术实施例提供了一种日志解压缩方法,包括:确定待解压缩日志文件中的编码元素;基于字符串与编码元素的对应关系,对所述待解压缩日志文件进行解压缩;其中,所述对应关系基于历史日志文件确定。第三方面,本专利技术实施例提供了一种日志压缩系统,包括:第一确定模块和压缩模块。其中,第一确定模块用于确定待压缩日志文件中的字符串;压缩模块用于基于字符串与编码元素的对应关系,对所述待压缩日志文件进行压缩;其中,所述对应关系基于历史日志文件确定。第四方面,本专利技术实施例提供了一种日志解压缩系统,包括:第二确定模块和解压缩模块。其中,第二确定模块用于确定待解压缩日志文件中的编码元素;解压缩模块用于基于字符串与编码元素的对应关系,对所述待解压缩日志文件进行解压缩;其中,所述对应关系基于历史日志文件确定。第五方面,本专利技术实施例提供了一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的日志压缩方法或第二方面所述的日志解压缩方法的步骤。第六方面,本专利技术实施例提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的日志压缩方法或第二方面所述的日志解压缩方法的步骤。本专利技术实施例提供的一种日志压缩方法及日志解压缩方法,日志压缩方法首先确定待压缩日志文件中的字符串;然后基于字符串与编码元素的对应关系,对待压缩日志文件进行压缩;其中,对应关系基于历史日志文件确定。本专利技术实施例中引入通过历史日志文件确定的字符串与编码元素的对应关系,可以直接根据对应关系对待压缩日志文件进行压缩,简化了日志压缩过程,整个过程不需要很强的专业知识。同时,由于编码元素仍然是字符串,因此,不影响使用其他日志压缩方法进行二次压缩以提高压缩比率。而且,字符串的长度可以根据需要进行灵活选取,可以提供灵活的压缩比率。另外,由于对待压缩日志文件的压缩过程就是编码过程,因此可以一定程度上对待压缩日志文件进行加密,保证了待压缩日志文件的保密性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种日志压缩方法的流程示意图;图2为本专利技术实施例提供的一种日志解压缩方法的流程示意图;图3为本专利技术实施例提供的一种日志压缩系统的结构示意图;图4为本专利技术实施例提供的一种日志解压缩系统的结构示本文档来自技高网
...

【技术保护点】
1.一种日志压缩方法,其特征在于,包括:/n确定待压缩日志文件中的字符串;/n基于字符串与编码元素的对应关系,对所述待压缩日志文件进行压缩;/n其中,所述对应关系基于历史日志文件确定。/n

【技术特征摘要】
1.一种日志压缩方法,其特征在于,包括:
确定待压缩日志文件中的字符串;
基于字符串与编码元素的对应关系,对所述待压缩日志文件进行压缩;
其中,所述对应关系基于历史日志文件确定。


2.根据权利要求1所述的日志压缩方法,其特征在于,所述对应关系具体通过如下方法确定:
确定所述历史日志文件中每个字符串的长度以及出现的频率;
将每个字符串的长度以及出现的频率的乘积作为权重,基于初始编码元素集合,采用K阶哈夫曼编码算法,确定每个字符串对应的编码元素。


3.根据权利要求2所述的日志压缩方法,其特征在于,所述基于初始编码元素集合,采用K阶哈夫曼编码算法,确定每个字符串对应的编码元素,具体包括:
去除所述初始编码元素集合中在所述历史日志文件中出现的初始编码元素,得到备选编码元素集合;
基于所述备选编码元素集合,采用K阶哈夫曼编码算法,确定每个字符串对应的编码元素。


4.根据权利要求2所述的日志压缩方法,其特征在于,所述确定所述历史日志文件中每个字符串的长度以及出现的频率之前,还包括:
将所述历史日志文件中每条记录的时间部分进行格式归一化;
基于预设分隔符,对格式归一化后的所述历史日志文件进行分词处理,确定所述历史日志文件中的字符串。


5.根据权利要求2所述的日志压缩方法,其特征在于,所述基于字符串与编码元素的对应关系,对所...

【专利技术属性】
技术研发人员:杨洋
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1