【技术实现步骤摘要】
一种数据压缩方法及终端
本专利技术涉及计算机
,尤其涉及一种数据压缩方法及终端。
技术介绍
数据存储是计算机系统中不可或缺的部分,磁盘、磁带、闪存、非易失性内存、云存储等都可以用来存储数据。全世界每天都会产生巨量的数据,如果对这些数据进行未经处理的原始保存会占用较大的存储空间,成本开销很高;为了有效地保存这些数据,通常会采用数据缩减技术对这些数据进行压缩,常用的数据缩减技术包括重复数据删除、通用无损压缩、相似压缩等技术。以备份场景为例,连续的两个备份文件之间通常会存在大量的相同数据,可以通过重删技术有效的缩减备份文件的实际存盘数量,即后一个备份文件只保存与前一个备份文件“不同的数据”,从而起到了节省存储成本和降低网络传输的数据量的效果。然而,数据库应用中大量的操作是修改查询,大部分需要下盘的“不同的数据”都是由修改产生。这些修改产生的“不同的数据”与修改前备份的数据之间存在“相似性”,可以通过Delta压缩技术对存在相似性的数据做进一步的压缩,Delta压缩技术的压缩原理如下:首先为待压缩的数据选择相似数据,然后使用Delta压缩技术参照该相似数据对该待压缩 ...
【技术保护点】
一种数据压缩方法,其特征在于,包括:终端通过第一计算策略计算待压缩数据块的第一特征值;所述终端判断第一查找库中是否存在第一参考值,所述第一参考值为与所述第一特征值相同的特征值,所述第一查找库包含N个特征值且每个特征值为基于所述第一计算策略对所述特征值对应的数据块计算得到,所述第一查找库中的所述N个特征值一一对应N个数据块,N大于等于1;若存在所述第一参考值,则所述终端通过相似压缩技术以所述第一参考值对应的数据块为参考数据块对所述待压缩数据块压缩;若不存在所述第一参考值,则所述终端通过第二计算策略计算所述待压缩数据块的第二特征值,两个数据块的相似度高于第一相似阈值时,通过所述 ...
【技术特征摘要】
1.一种数据压缩方法,其特征在于,包括:终端通过第一计算策略计算待压缩数据块的第一特征值;所述终端判断第一查找库中是否存在第一参考值,所述第一参考值为与所述第一特征值相同的特征值,所述第一查找库包含N个特征值且每个特征值为基于所述第一计算策略对所述特征值对应的数据块计算得到,所述第一查找库中的所述N个特征值一一对应N个数据块,N大于等于1;若存在所述第一参考值,则所述终端通过相似压缩技术以所述第一参考值对应的数据块为参考数据块对所述待压缩数据块压缩;若不存在所述第一参考值,则所述终端通过第二计算策略计算所述待压缩数据块的第二特征值,两个数据块的相似度高于第一相似阈值时,通过所述第一计算策略计算出的所述两个数据块的特征值相同;所述两个数据块的相似度高于第二相似阈值时,通过所述第二计算策略计算出的所述两个数据块的特征值相同,所述第一相似阈值高于所述第二相似阈值;所述终端判断第二查找库中是否存在第二参考值,所述第二参考值为与所述第二特征值相同的特征值,所述第二查找库包含N个特征值且每个特征值为基于所述第二计算策略对所述特征值对应的数据块计算得到,所述第二查找库中的所述N个特征值一一对应所述N个数据块;若存在所述第二参考值,则所述终端通过相似压缩技术以所述第二参考值对应的数据块为参考数据块对所述待压缩数据块压缩。2.根据权利要求1所述的方法,其特征在于,所述终端通过第一计算策略计算预设的待压缩数据块的第一特征值之前,所述方法还包括:所述终端从待压缩数据块中划分出M个数据单元,所述M个数据单元中每个数据单元对应有各自的初始参考值,M大于等于1;所述终端通过第一计算策略计算预设的待压缩数据块的第一特征值,包括:将所述M个数据单元中至少两个数据单元的初始参考值代入到预设的P个过滤函数中计算所述待压缩数据块的第一特征值,P大于等于2;所述终端通过第二计算策略计算所述待压缩数据块的第二特征值,包括:将所述M个数据单元中至少两个数据单元的初始参考值代入到预设的Q个过滤函数中计算所述待压缩数据块的第二特征值,所述P个过滤函数包括所述Q个过滤函数。3.根据权利要求1或2所述的方法,其特征在于,对所述待压缩数据块压缩之后,所述方法还包括:所述终端将所述第一特征值加入到所述第一查找库中,以及将所述第二特征值加入到所述第二查找库中,在所述第一查找库中所述第一特征值对应的数据块为所述待压缩数据块,在所述第二查找库中所述第二特征值对应的数据块为所述待压缩数据块。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:所述终端将存在于所述第一查找库中的时间超过预设时间阈值的特征值从所述第一查找库中删除,以及将存在于所述第二查找库中的时间超过所述预设时间阈值的特征值从所述第二查找库中删除。5.根据权利要求1~4任一项所述的方法,其特征在于,所述终端通过第一计算策略计算待压缩数据块的第一特征值之前,所述方法还包括:所述终端统计历史压缩过程中通过第二计算策略对多个数据块计算得到的多个特征值,以及确定所述第二查找库和所述多个特征值中存在相同特征值的数量;历史压缩过程中未通过所述第一计算策略计算所述多个数据块的特征值;所述终端根据所述多个特征值中特征值的数量以及所述相同特征值的数量计算第一中标率;当所述第一中标率高于预设的第一中标阈值时,若存在待压缩数据块,则执行所述终端通过第一计算策略计算待压缩数据块的第一特征值的步骤。6.根据权利要求1~4任一项所述的方法,其特征在于,所述终端通过第二计算策略计算所述待压缩数据块的第二特征值之前,所述方法还包括:所述终端统计历史压缩过程中通过第一计算策略对多个数据块压缩得到的多个特征值,以及确定所述第一查找库和所述多个特征值中存在相同特征值的数量;历史压缩过程中未通过所述第二计算策略计算所述多个数据块的特征值;所述终端根据所述多个特征值中特征值的数量以及所述相同特征值的数量计算第二中标率;当所述第二中标率低于预设的第二中标阈值时,执行所述若不存在所述第一参考值,则所述终端通过第二计算策略计算所述待压缩数据块的第二特征值的步骤。7.一种终端,其特征在于,包括:第一计算单元,用于通过第一...
【专利技术属性】
技术研发人员:冷继南,关坤,沈建强,王工艺,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。