一种数据压缩方法及相关系统技术方案

技术编号:43163909 阅读:35 留言:0更新日期:2024-11-01 19:56
本申请提供了一种数据压缩方法,包括:获取待持久化的数据文件,该待持久化的数据文件包括多个子文件,在对多个子文件中的第一子文件持久化时:根据第一子文件生成与第一子文件对应的字典,并使用字典对第一子文件进行压缩得到第一压缩文件,根据第一压缩文件和字典生成第一持久化文件,以及向持久化存储介质写入第一持久化文件。单个持久化文件独立维护子文件对应的字典,字典与子文件可以实现同样的生命周期管理,即子文件中的数据和字典的生命周期亲和绑定,解决了局部的数据文件引用全局的公共字典,导致公共字典无法释放的长尾问题,由此避免公共字典长时间占据内存无法释放,引发元数据膨胀,进而导致存储系统性能下降的问题。

【技术实现步骤摘要】

本申请涉及存储,尤其涉及一种数据压缩方法、装置、存储系统、计算机可读存储介质以及计算机程序产品。


技术介绍

1、云计算的广泛应用,以及第五代(the fifth generation,5g)通信系统、大数据的快速普及正在加速数据的生产和流动,促进数据价值不断释放,并对数据存储容量提出更大的挑战。更大的数据量、更长的存储周期意味着更高的存储成本,对以数据为中心的基础设施和以内存为中心的系统架构提出了更高的性价比诉求,解决海量数据存储的问题,成为影响数据中心基础设施采购和维护成本的关键因素。

2、各大数据存储厂商均推出相应的数据缩减特性,从而显著提升相同物理容量下的用户可用容量,降低总体拥有成本(total cost ownership,tco)。目前,业界推出lz4、zstd、snappy等数据压缩算法实现数据缩减特性,上述数据压缩算法最高可提供倍数级的数据压缩率。但由于数据量呈现指数级增长趋势,上述数据压缩算法逐渐无法完全匹配海量数据的生产、存储、应用需求。

3、数据存储厂商尝试采用公共字典(public dictionary,pd本文档来自技高网...

【技术保护点】

1.一种数据压缩方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一持久化文件包括预分配的数据区和元数据区,所述数据区存储所述第一压缩文件,所述元数据区的指定位置存储与所述第一子文件对应的字典,所述指定位置根据预分配所述元数据区的配置信息确定,预分配所述元数据区的配置信息包括所述元数据区在所述第一持久化文件的偏移量以及所述字典在所述元数据区的偏移量。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,...

【技术特征摘要】

1.一种数据压缩方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一持久化文件包括预分配的数据区和元数据区,所述数据区存储所述第一压缩文件,所述元数据区的指定位置存储与所述第一子文件对应的字典,所述指定位置根据预分配所述元数据区的配置信息确定,预分配所述元数据区的配置信息包括所述元数据区在所述第一持久化文件的偏移量以及所述字典在所述元数据区的偏移量。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述对已写入所述持久化存储介质的多个持久化文件进行合并获得新的持久化文件,包括:

6.根据权利要求4所述的方法,其特征在于,所述合并条件包括以下至少一种:

7.根据权利要求4至6任一项所述的方法,其特征在于,所述对已写入所述持久化存储介质的多个持久化文件进行合并获得新的持久化文件,包括:

8.根据权利要求7所述的方法,其特征在于,所述持久化文件的属性信息包括写入时间或有效数据比例,所述有效数据比例为所述持久化文件对应的子文件中未被改写的数据的比例;

9.根据权利要求4至8任一项所述的方法,其特征在于,所述方法还包括:

10.一种数据压缩装置,其特征在于,所述装置包括:

11.根据权利要求10所述的装置,其特征在...

【专利技术属性】
技术研发人员:董如良罗斯哲朱洪德孙勇
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1