数据压缩方法、装置、存储介质、设备集群及程序产品制造方法及图纸

技术编号:38468005 阅读:19 留言:0更新日期:2023-08-11 14:45
本申请实施例公开了一种数据压缩方法、装置、存储介质、设备集群及程序产品,属于数据处理技术领域。在本申请实施例中,根据当前时刻之前已经完成压缩的数据的压缩率来判断是否对字典模板进行更新,也即,本申请能够根据已经完成压缩的数据的压缩率判断该字典模板是否适用于当前待压缩的数据。在不适用的情况下,根据待压缩的数据,对字典模板进行自适应更新。这样,利用更新后的字典模板,对待压缩的数据进行压缩,能够保证待压缩的数据中的大部分字符串存在于更新后的字典模板中,从而提升数据的压缩率。数据的压缩率。数据的压缩率。

【技术实现步骤摘要】
数据压缩方法、装置、存储介质、设备集群及程序产品


[0001]本申请涉及数据处理
,特别涉及一种数据压缩方法、装置、存储介质、设备集群及程序产品。

技术介绍

[0002]随着信息技术的快速发展,待存储的数据呈爆炸式增长。基于此,在存储数据时,可以对数据进行压缩后再存储,以此来减少对存储空间的占用。
[0003]相关技术中,通常使用字典压缩算法来对数据进行压缩。也即,预先创建字典模板,该字典模板包括字符串和码字的映射关系。之后,对于任一待压缩的数据,如果该数据中的某个字符串存在于该字典模板中,则从字典模板中获取该字符串对应的码字,并将该数据中的该字符串用获取的码字来代替,以此来压缩数据所占的存储空间。然而,当待压缩的数据中的字符串大部分不存在于字典模板中时,数据的压缩率将会比较低。

技术实现思路

[0004]本申请实施例提供了一种数据压缩方法、装置、存储介质、设备集群及程序产品,能够提升数据的压缩率。所述技术方案如下:
[0005]第一方面,提供了一种数据压缩方法,所述方法包括:根据一条或多条第一数据的压缩率本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据压缩方法,其特征在于,所述方法包括:根据一条或多条第一数据的压缩率,确定对字典模板进行更新,其中,所述第一数据指示在第一时间段内通过所述字典模板完成压缩的数据,所述第一时间段的结束时刻早于当前时刻;根据待压缩的数据,对所述字典模板进行更新;基于所述更新后的字典模板,对所述待压缩的数据进行压缩。2.根据权利要求1所述的方法,其特征在于,所述根据一条或多条第一数据的压缩率,确定对字典模板进行更新,包括:获取一条或多条第二数据的压缩率,其中,所述第二数据指示在第二时间段内通过字典模板完成压缩的数据,所述第二时间段的结束时刻早于所述第一时间段的起始时刻;根据所述一条或多条第一数据的压缩率和所述一条或多条第二数据的压缩率,确定对所述字典模板进行更新。3.根据权利要求2所述的方法,其特征在于,所述根据所述一条或多条第一数据的压缩率和所述一条或多条第二数据的压缩率,确定对所述字典模板进行更新,包括:基于每条第一数据的压缩率,确定所述第一时间段内的第一数据平均压缩率;基于每条第二数据的压缩率,确定所述第二时间段内的第二数据平均压缩率;如果所述第一数据平均压缩率小于所述第二数据平均压缩率,且所述第二数据平均压缩率与所述第一数据平均压缩率的差值大于第一阈值,则确定对所述字典模板进行更新。4.根据权利要求1所述的方法,其特征在于,所述根据第一压缩数据包括的一条或多条第一数据的压缩率,确定对字典模板进行更新,包括:获取每条第一数据的压缩率;基于每条第一数据的压缩率,确定所述第一时间段内的平均压缩率;如果所述第一时间段内的数据平均压缩率小于第二阈值,确定对所述字典模板进行更新。5.根据权利要求1

4任一所述的方法,其特征在于,所述根据所述待压缩的数据,对字典模板进行更新,包括:从待压缩的多条数据中提取多个字符串,每个字符串在所述待压缩的多条数据中的出现次数不小于第三阈值;根据所述多个字符串和每个字符串在所述待压缩的多条数据中的出现次数,对所述字典模板进行更新。6.根据权利要求1

5任一所述的方法,其特征在于,所述待压缩的数据为流式数据,所述流式数据包括元数据、日志数据中的至少一种。7.一种数据压缩装置,其特征在于,所述装置包括:确定模块,用于根据一条或多条第一数据的压缩率,确定对字典模板进行更新,其中,所述第一数据指示在第一时间段内通过所述字典模板完成压缩的数据,所述第一时间段的结束时刻早于当前时刻;更新模块,用于根据...

【专利技术属性】
技术研发人员:林锋
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1