一种自适应数据压缩系统及其方法技术方案

技术编号:16783051 阅读:65 留言:0更新日期:2017-12-13 01:53
本发明专利技术公开了一种自适应数据压缩系统,其特征在于:包含两两相互连接的时间控制模块,根据时间分片阈值对时间进行分片;热度判断模块,用于记录当前时间片各数据的访问频率,当时间片结束时,对所有数据按照访问频率进行热度判断;压缩及解压缩控制模块,用于当前时间片开始时,遍历所有数据。本发明专利技术克服了现有存储系统中压缩方法不灵活的缺点,使得数据在合理的压缩率被压缩,既能够提升空间利用率,又能够提升读写性能,使得系统因压缩产生的收益远大于因压缩产生的代价。

【技术实现步骤摘要】
一种自适应数据压缩系统及其方法
本专利技术涉及一种压缩系统及其方法,特别是一种自适应数据压缩系统及其方法。
技术介绍
在存储系统中(包括但不限于分布式文件系统,本地文件系统,分布式块存储系统,对象存储系统,数据库等),数据(包括但不限于文件,数据分片,数据页面,元数据等)压缩技术是节约存储空间,降低成本(以下统称收益)的一种常规手段。但是,数据压缩技术增加了计算量,在读数据时要先解压再读取,在写入时要先压缩落盘,导致CPU的负担加重,数据的读写时延增大(以下统称代价)。从某种意义上说,数据压缩技术是一种典型的以时间换空间,收益与代价互相权衡的一种技术。数据压缩的必要性应当考虑两方面的因素:1.压缩率。在本专利技术中所指压缩率计算公式为:压缩后数据的尺寸与压缩前数据的尺寸的比值。压缩取得的不同数据的压缩率是不同的,同一数据在修改前后的压缩率也是不同的,不同的压缩算法(包括但不限于RLE、哈夫曼编码、Rice、查分编码等,均为本领域公知常识不再赘述)对于同一数据的压缩率是不同的。压缩率越高,压缩产生的收益也就越大。压缩率越小,压缩产生的收益也就越小。一旦压缩产生的收益小于代价,那么压缩的必要性较低。2.访问热度。访问热度受访问频率和时间影响。访问热度越高,压缩产生的代价也就越高。访问热度越低,压缩产生的代价也就越低。极端地,对于冷数据中心的文件(例如30年前的学籍档案)访问热度极低,那么压缩的必要性较高。以上两个因素对数据压缩的必要性产生了重要的影响:访问热度越低的数据,所期望的压缩率越低,毕竟压缩代价较小;访问热度越高的数据,所期望的压缩率越高,毕竟压缩代价较大。在现有的存储系统中,数据压缩的方法十分不灵活,要么将压缩功能打开,要么将压缩功能关闭,或者对不同热度的数据采取相同的压缩策略。缺乏根据压缩率和访问热度动态地打开或关闭压缩功能,迫切地需要提出一种自适应的数据压缩方法及系统。
技术实现思路
本专利技术所要解决的技术问题是提供一种自适应数据压缩系统及其方法。为解决上述技术问题,本专利技术所采用的技术方案是:一种自适应数据压缩系统,其特征在于:包含两两相互连接的时间控制模块,根据时间分片阈值对时间进行分片;热度判断模块,用于记录当前时间片各数据的访问频率,当时间片结束时,对所有数据按照访问频率进行热度判断;压缩及解压缩控制模块,用于当前时间片开始时,遍历所有数据。进一步地,所述热度判断模块热度判断具体为,访问频率大于第一访问频率阈值的数据为第一热度,访问频率介于第一访问频率阈值和第二访问频率阈值的数据为第二热度,访问频率介于第二访问频率阈值和第三访问频率阈值的数据为第三热度,访问频率小于第N访问频率阈值的数据为第N热度;其中第一热度的数据所能接受的压缩率为第一压缩率阈值,第二热度的数据所能接受的压缩率为第二压缩率阈值,第N热度的数据所能接受的压缩率为第N压缩率阈值。进一步地,所述压缩及解压缩控制模块遍历所有数据过程为,若当前数据为未压缩数据,则根据数据压缩算法对数据进行预压缩,求得该数据的压缩率,并与该数据的压缩率阈值进行比较,若该数据的压缩率低于该压缩率阈值则进行压缩,反之则保持不压缩;若当前数据为已压缩数据,则根据数据压缩算法对数据进行预解压缩,求得该数据的压缩率,并与该数据的压缩率阈值进行比较,若该数据的压缩率高于该压缩率阈值则进行解压缩,反之则保持压缩。一种自适应数据压缩方法,其特征在于包含以下步骤:步骤一:时间控制模块根据时间分片阈值对时间进行等分分片;步骤二:时间控制模块在第N个时间分片开始时,通知热度判断模块开启新一轮数据访问频率记录,每一次读操作或写操作均将该数据的访问频率增加1;步骤三:时间控制模块在第N个时间分片结束时,通知热度判断模块本轮数据访问频率记录结束;步骤四:热度判断模块遍历各数据在第N个时间分片的访问频率,根据访问频率阈值,确定该数据所属热度及其所能接受的压缩率;如果该数据为已压缩数据,则进入步骤五,否则进入步骤六;步骤五:热度判断模块根据数据压缩算法对数据进行预解压缩,求得该数据的压缩率,并与该数据的压缩率阈值进行比较,若该数据的压缩率高于该压缩率阈值则进行解压缩,反之则保持压缩,进入步骤七;步骤六:热度判断模块根据数据压缩算法对数据进行预压缩,求得该数据的压缩率,并与该数据的压缩率阈值进行比较,若该数据的压缩率低于该压缩率阈值则进行压缩,反之则保持不压缩;步骤七:时间控制模块进入下一个时间分片,将上一轮的数据访问频率记录归零,重新进入步骤二,直至系统关闭。本专利技术与现有技术相比,具有以下优点和效果:本专利技术克服了现有存储系统中压缩方法不灵活的缺点,使得数据在合理的压缩率被压缩,既能够提升空间利用率,又能够提升读写性能,使得系统因压缩产生的收益远大于因压缩产生的代价。经过原型系统测试验证,本专利技术的空间利用率提升10%以上,读写性能提升15%以上。附图说明图1是本专利技术的一种自适应数据压缩系统的模块图。图2是本专利技术的一种自适应数据压缩方法的流程图。图3是本专利技术的热度压缩率阈值对应表。具体实施方式下面结合附图并通过实施例对本专利技术作进一步的详细说明,以下实施例是对本专利技术的解释而本专利技术并不局限于以下实施例。如图1所示,本专利技术的一种自适应数据压缩系统,包含时间控制模块、热度判断模块和压缩及解压缩控制模块,时间控制模块、热度判断模块和压缩及解压缩控制模块相互两两连接。时间控制模块,本系统根据时间分片阈值对时间进行分片,当前时间分片结束时统计的访问频率决定了数据当前的热度,也就决定了数据在当前时间分片中所能接受的压缩率。热度判断模块,该模块负责记录当前时间片各数据的访问频率,当时间片结束时,对所有数据按照访问频率进行热度判断:访问频率大于第一访问频率阈值的数据为第一热度,访问频率介于第一访问频率阈值和第二访问频率阈值的数据为第二热度,访问频率介于第二访问频率阈值和第三访问频率阈值的数据为第三热度,以此类推,访问频率小于第N访问频率阈值的数据为第N热度。其中第一热度的数据所能接受的压缩率为第一压缩率阈值,第二热度的数据所能接受的压缩率为第二压缩率阈值。以此类推,如图3表格所示。压缩及解压缩控制模块,当前时间片开始时,遍历所有数据。若当前数据为未压缩数据,则根据数据压缩算法对数据进行预压缩,求得该数据的压缩率,并与该数据的压缩率阈值进行比较,若该数据的压缩率低于该压缩率阈值则进行压缩,反之则保持不压缩。若当前数据为已压缩数据,则根据数据压缩算法对数据进行预解压缩,求得该数据的压缩率,并与该数据的压缩率阈值进行比较,若该数据的压缩率高于该压缩率阈值则进行解压缩,反之则保持压缩。如图2所示,一种自适应数据压缩方法,包含以下步骤:步骤一:时间控制模块根据时间分片阈值对时间进行等分分片;步骤二:时间控制模块在第N个时间分片开始时,通知热度判断模块开启新一轮数据访问频率记录,每一次读操作或写操作均将该数据的访问频率增加1;步骤三:时间控制模块在第N个时间分片结束时,通知热度判断模块本轮数据访问频率记录结束;步骤四:热度判断模块遍历各数据在第N个时间分片的访问频率,根据访问频率阈值,确定该数据所属热度及其所能接受的压缩率;如果该数据为已压缩数据,则进入步骤五,否则进入步骤六;步骤五:热度判断模块根据数据压缩算本文档来自技高网
...
一种自适应数据压缩系统及其方法

【技术保护点】
一种自适应数据压缩系统,其特征在于:包含两两相互连接的时间控制模块,根据时间分片阈值对时间进行分片;热度判断模块,用于记录当前时间片各数据的访问频率,当时间片结束时,对所有数据按照访问频率进行热度判断;压缩及解压缩控制模块,用于当前时间片开始时,遍历所有数据。

【技术特征摘要】
1.一种自适应数据压缩系统,其特征在于:包含两两相互连接的时间控制模块,根据时间分片阈值对时间进行分片;热度判断模块,用于记录当前时间片各数据的访问频率,当时间片结束时,对所有数据按照访问频率进行热度判断;压缩及解压缩控制模块,用于当前时间片开始时,遍历所有数据。2.按照权利要求1所述的一种自适应数据压缩系统,其特征在于:所述热度判断模块热度判断具体为,访问频率大于第一访问频率阈值的数据为第一热度,访问频率介于第一访问频率阈值和第二访问频率阈值的数据为第二热度,访问频率介于第二访问频率阈值和第三访问频率阈值的数据为第三热度,访问频率小于第N访问频率阈值的数据为第N热度;其中第一热度的数据所能接受的压缩率为第一压缩率阈值,第二热度的数据所能接受的压缩率为第二压缩率阈值,第N热度的数据所能接受的压缩率为第N压缩率阈值。3.按照权利要求1所述的一种自适应数据压缩系统,其特征在于:所述压缩及解压缩控制模块遍历所有数据过程为,若当前数据为未压缩数据,则根据数据压缩算法对数据进行预压缩,求得该数据的压缩率,并与该数据的压缩率阈值进行比较,若该数据的压缩率低于该压缩率阈值则进行压缩,反之则保持不压缩;若当前数据为已压缩数据,则根据数据压缩算法对数据进行预解压缩,求得该数据的压缩率...

【专利技术属性】
技术研发人员:强慧媛杨洪章
申请(专利权)人:南京城市职业学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1