评估数据缩减率的方法、装置及系统、存储介质制造方法及图纸

技术编号:31723324 阅读:55 留言:0更新日期:2022-01-05 15:47
一种评估数据缩减率的方法、装置及系统、存储介质,属于存储技术领域。该方法包括:获取目标样本数据,该目标样本数据是原始数据的子集;对该目标样本数据进行差分压缩,得到差分压缩后的样本数据;根据该目标样本数据的数据量和该差分压缩后的样本数据的数据量,确定该目标样本数据的差分压缩收益;根据该差分压缩收益确定原始数据的缩减率。本申请提供的技术方案能够适用于差分压缩的存储系统,例如基于delta压缩的存储系统。delta压缩的存储系统。delta压缩的存储系统。

【技术实现步骤摘要】
评估数据缩减率的方法、装置及系统、存储介质


[0001]本申请涉及存储
,特别涉及一种评估数据缩减率的方法、装置及系统、存储介质。

技术介绍

[0002]数据缩减(data reduction)技术是存储系统中必不可少的关键技术,其通过重复数据删除处理(也即是删除重复的数据块,对于相同的数据块仅存储一份)、压缩处理等方式减小数据规模,实现降低存储开销,提高存储系统的利用率的目的。数据缩减率表征数据能够被缩减的程度,数据缩减率的评估在存储系统的容量预测、存储系统扩容以及数据迁移等场景中具有重要意义。
[0003]目前,在评估数据缩减率时,首先,对存储系统存储的原始数据进行抽样得到多个样本数据块;然后,对于该多个样本数据块中的每个样本数据块,计算该样本数据块的强指纹(fingerprint,FP)以及对该样本数据块进行自压缩(也即是对该样本数据块本身进行压缩),将该样本数据块的强FP和该样本数据块的自压缩率记录至FP表(table)中;接着,根据FP表中记录的该多个样本数据块,该多个样本数据块的强FP以及该多个样本数据块的自压缩率建立评估模型;最后,使用该评估模型评估原始数据的缩减率。
[0004]但是,目前评估数据缩减率的方案仅能够适用于基于自压缩的存储系统,难以适用于基于delta压缩等差分压缩的存储系统。

技术实现思路

[0005]本申请提供了一种评估数据缩减率的方法、装置及系统、存储介质,能够适用于基于差分压缩的存储系统,例如,基于delta压缩的存储系统。本申请的技术方案如下:
[0006]第一方面,提供了一种评估数据缩减率的方法,该方法包括:获取目标样本数据,该目标样本数据是原始数据的子集;对该目标样本数据进行差分压缩,得到差分压缩后的样本数据;根据该目标样本数据的数据量和该差分压缩后的样本数据的数据量,确定该目标样本数据的差分压缩收益;根据该差分压缩收益确定该原始数据的缩减率。
[0007]本申请提供的技术方案,由于可以根据对目标样本数据进行差分压缩的差分压缩收益确定原始数据的缩减率,因此该技术方案能够适用于基于差分压缩的存储系统。
[0008]可选地,该目标样本数据是经过自压缩处理得到的数据,该方法还包括:确定该目标样本数据的自压缩率;根据该目标样本数据的差分压缩收益确定该原始数据的缩减率具体包括:根据该差分压缩收益和该自压缩率确定该原始数据的缩减率。
[0009]本申请提供的技术方案,由于可以根据目标样本数据的自压缩率和目标样本数据的差分压缩收益确定原始数据的缩减率,因此根据目标样本数据评估的原始数据的缩减率更接近于该原始数据的实际缩减率。并且,由于评估的过程中考虑了目标样本数据的自压缩率,因此该技术方案能够适用于基于自压缩的存储系统,从而该技术方案能够实现与目前的评估数据缩减率的技术方案的兼容。
[0010]可选地,该目标样本数据是经过重复数据删除处理得到的数据,该方法还包括:确定该目标样本数据的重删率;根据该目标样本数据的差分压缩收益确定该原始数据的缩减率具体包括:根据该差分压缩收益和该重删率确定该原始数据的缩减率。
[0011]本申请提供的技术方案,由于可以根据目标样本数据的重删率和目标样本数据的差分压缩收益确定原始数据的缩减率,因此根据目标样本数据评估的原始数据的缩减率更接近于该原始数据的实际缩减率。
[0012]可选地,该目标样本数据是经过重复数据删除处理以及自压缩处理得到的数据,该方法还包括:确定该目标样本数据的自压缩率;根据该目标样本数据的差分压缩收益确定该原始数据的缩减率具体包括:根据该差分压缩收益,该重删率以及该自压缩率确定该原始数据的缩减率。
[0013]本申请提供的技术方案,由于可以根据目标样本数据的重删率、目标样本数据的自压缩率以及目标样本数据的差分压缩收益确定原始数据的缩减率,因此根据目标样本数据评估的原始数据的缩减率更接近于该原始数据的实际缩减率。并且,由于评估的过程中考虑了目标样本数据的自压缩率,因此该技术方案能够适用于基于自压缩的存储系统,从而该技术方案能够实现与目前的评估数据缩减率的技术方案的兼容。
[0014]可选地,目标样本数据包括多个样本数据块,该多个样本数据块的强哈希值各不相等。
[0015]可选地,该目标样本数据中的样本数据块的数量大于或等于预设数量。
[0016]本申请提供的技术方案,由于目标样本数据中的样本数据块的数量大于或等于预设数量,因此能够保证根据该目标样本数据评估到的原始数据的缩减率更接近于该原始数据的实际缩减率,提高评估的准确性。
[0017]可选地,该差分压缩为delta压缩。
[0018]第二方面,提供了一种评估数据缩减率的装置,该评估数据缩减率的装置包括用于执行如第一方面或第一方面的任一可选方式所提供的评估数据缩减率的方法的各个模块。
[0019]可选地,原始数据存储在存储系统的存储设备中,该存储系统包括处理器和存储设备,该评估数据缩减率的装置是该处理器。
[0020]可选地,原始数据存储在存储系统的存储设备中,该存储系统包括处理器、评估芯片和存储设备,该评估数据缩减率的装置是该评估芯片。
[0021]可选地,原始数据存储在存储系统的存储设备中,该评估数据缩减率的装置是该存储系统外部的评估设备。
[0022]第三方面,提供了一种评估数据缩减率的装置,包括处理器和存储器,该存储器中存储有程序,该处理器用于调用该存储器中存储的程序,使得该评估数据缩减率的装置执行如第一方面或第一方面的任一可选方式所提供的评估数据缩减率的方法。
[0023]第四方面,提供了一种评估数据缩减率的系统,该评估数据缩减率的系统为存储系统,该存储系统包括处理器和存储设备,该处理器包括如第二方面所提供的评估数据缩减率的装置。
[0024]第五方面,提供了一种评估数据缩减率的系统,该评估数据缩减率的系统为存储系统,该存储系统包括处理器、评估芯片和存储设备,该评估芯片包括如第二方面所提供的
评估数据缩减率的装置。
[0025]第六方面,提供了一种评估数据缩减率的系统,该评估数据缩减率的系统包括存储系统和位于该存储系统外部的评估设备,该评估设备包括如第二方面或第三方面所提供的评估数据缩减率的装置。
[0026]第七方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得该计算机执行如第一方面或第一方面的任一可选方式所提供的评估数据缩减率的方法。
[0027]第八方面,提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行如第一方面或第一方面的任一可选方式所提供的评估数据缩减率的方法。
[0028]第九方面,提供了一种芯片,该芯片包括可编程逻辑电路和/或程序指令,当该芯片运行时用于实现如第一方面或第一方面的任一可能实现方式所提供的评估数据缩减率的方法。
[0029]本申请提供的技术方案带来的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种评估数据缩减率的方法,其特征在于,所述方法包括:获取目标样本数据,所述目标样本数据是原始数据的子集;对所述目标样本数据进行差分压缩,得到差分压缩后的样本数据;根据所述目标样本数据的数据量和所述差分压缩后的样本数据的数据量,确定所述目标样本数据的差分压缩收益;根据所述差分压缩收益确定所述原始数据的缩减率。2.根据权利要求1所述的方法,其特征在于,所述目标样本数据是经过自压缩处理得到的数据,所述方法还包括:确定所述目标样本数据的自压缩率;所述根据所述目标样本数据的差分压缩收益确定所述原始数据的缩减率具体包括:根据所述差分压缩收益和所述自压缩率确定所述原始数据的缩减率。3.根据权利要求1所述的方法,其特征在于,所述目标样本数据是经过重复数据删除处理得到的数据,所述方法还包括:确定所述目标样本数据的重删率;所述根据所述目标样本数据的差分压缩收益确定所述原始数据的缩减率具体包括:根据所述差分压缩收益和所述重删率确定所述原始数据的缩减率。4.根据权利要求3所述的方法,其特征在于,所述目标样本数据是经过重复数据删除处理以及自压缩处理得到的数据,所述方法还包括:确定所述目标样本数据的自压缩率;所述根据所述目标样本数据的差分压缩收益确定所述原始数据的缩减率具体包括:根据所述差分压缩收益,所述重删率以及所述自压缩率确定所述原始数据的缩减率。5.根据权利要求3或4所述的方法,其特征在于,所述目标样本数据包括多个样本数据块,所述多个样本数据块的强哈希值各不相等。6.根据权利要求1至5任一所述的方法,其特征在于,所述目标样本数据中的样本数据块的数量大于或等于预设数量。7.根据权利要求1至6任一所述的方法,其特征在于,所述差分压缩为delta压缩。8.一种评估数据缩减率的装置,其特征在于,所述装置包括:获取模块,用于获取目标样本数据,所述目标样本数据是原始数据的子集;压缩模块,用于对所述目标样本数据进行差分压缩,得到差分压缩后的样本数据;第一确定模块,用于根据所述目标样本数据的数据量和所述差分压缩后的样本数据的数据量,确定所述目标样本数据的差分压缩收益;第二确定模块,用于根据所述差分压缩收益确定所述原始数据的缩减率。9.根据权利要求8所述的装置,其特征在于,所述目标样本数据是经过自压缩处理得到的数据,所述装置还包括:第三确定模块,用于确定所述目标样本数据的自压缩率;所述第二确定模块具体用于:根据所述差分压缩收益和所述自压缩率确定所述原始数据的缩减率。10.根据权利要求8所述的装置,其特征在于,所述目标样本数据是经过重复数据删除
处理得到的数据,...

【专利技术属性】
技术研发人员:黄增士潘浩刘中全王晨
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1