一种数据处理方法、装置及计算机可读存储介质制造方法及图纸

技术编号:26761566 阅读:31 留言:0更新日期:2020-12-18 23:00
本申请提供一种数据处理方法、装置及计算机可读存储介质,用以实现存储系统数据缩减比和系统开销之间的均衡。该方法包括:获取多个数据块;从所述多个数据块中至少确定出第一数据块和第二数据块,所述第一数据块具有第一哈希值,所述第二数据块具有第二哈希值,所述第一哈希值是根据设定的哈希算法对所述第一数据块进行计算获得的,所述第二哈希值是根据所述哈希算法对所述第二数据块进行计算获得的,所述第一哈希值和所述第二哈希值之间的差值小于设定的相似阈值;将所述第一数据块和所述第二数据块进行合并并压缩。

【技术实现步骤摘要】
一种数据处理方法、装置及计算机可读存储介质
本申请涉及计算机
,尤其涉及一种数据处理方法、装置及计算机可读存储介质。
技术介绍
数据压缩是指在不丢失有用信息的前提下,缩减数据中的冗余数据以减小数据存储空间的方法,通过对数据进行压缩,可以有效地节省存储空间。合并压缩是一种常见的压缩方式,是指先将多个数据块(Block)合并成一个长的数据块,然后对合并后的数据块进行压缩。一般来说,合并压缩的数据块的数目越多,数据的缩减比越高。但是,随着合并压缩的数据块的数目的增加,数据的压缩和解压开销随之增大,数据的读写性能会降低。因此,如何选择数据块进行合并压缩,以达到数据缩减比和系统开销之间的均衡,是亟待解决的问题。
技术实现思路
本申请实施例提供一种数据处理方法、装置及计算机可读存储介质,用以实现存储系统的数据缩减比和系统开销之间的均衡。第一方面,本申请实施例提供一种数据处理方法,包括:获取多个数据块;从所述多个数据块中至少确定出第一数据块和第二数据块,所述第一数据块具有第一哈希值,所述第二数据块具有第二哈希本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取多个数据块;/n从所述多个数据块中至少确定出第一数据块和第二数据块,所述第一数据块具有第一哈希值,所述第二数据块具有第二哈希值,所述第一哈希值是根据设定的哈希算法对所述第一数据块进行计算获得的,所述第二哈希值是根据所述哈希算法对所述第二数据块进行计算获得的,所述第一哈希值和所述第二哈希值之间的差值小于设定的相似阈值;/n将所述第一数据块和所述第二数据块进行合并并压缩。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取多个数据块;
从所述多个数据块中至少确定出第一数据块和第二数据块,所述第一数据块具有第一哈希值,所述第二数据块具有第二哈希值,所述第一哈希值是根据设定的哈希算法对所述第一数据块进行计算获得的,所述第二哈希值是根据所述哈希算法对所述第二数据块进行计算获得的,所述第一哈希值和所述第二哈希值之间的差值小于设定的相似阈值;
将所述第一数据块和所述第二数据块进行合并并压缩。


2.如权利要求1所述的方法,其特征在于,所述设定的哈希算法具体为局部敏感哈希算法。


3.如权利要求2所述的方法,其特征在于,根据设定的哈希算法对所述第一数据块进行计算,包括:
将所述第一数据块切分为多个不同长度的子数据块;
计算所述多个不同长度的子数据块中每个子数据块的哈希值;
将所述多个不同长度的子数据块的哈希值进行合并计算,得到所述第一数据块对应的局部敏感哈希值,将所述局部敏感哈希值作为所述第一哈希值。


4.如权利要求3所述的方法,其特征在于,所述第一哈希值和所述第二哈希值之间的差值小于设定的相似阈值,包括:
所述第一哈希值和所述第二哈希值的杰卡德距离小于设定的第一距离阈值;或者
所述第一哈希值和所述第二哈希值的欧式距离小于设定的第二距离阈值;或者
所述第一哈希值和所述第二哈希值的汉明距离小于设定的第三距离阈值。


5.如权利要求1-4任一项所述的方法,其特征在于,将所述第一数据块和所述第二数据块进行合并并压缩,包括:
将所述第一数据块和所述第二数据块进行合并,对合并后的数据块进行压缩,得到目标数据块;
在将所述第一数据块和所述第二数据块进行合并并压缩之后,所述方法还包括:
在所述第一数据块对应的元数据信息中添加第一合并压缩标识,用以指示所述第一数据块的压缩方式为合并压缩;在所述第二数据块对应的元数据信息中添加第二合并压缩标识,用以指示所述第二数据块的压缩方式为合并压缩。


6.如权利要求5所述的方法,其特征在于,在将所述第一数据块和所述第二数据块进行合并并压缩之后,所述方法还包括:
在所述第一数据块对应的元数据信息中添加第一位置标识,用以指示所述第一数据块在所述目标数据块中的位置;在所述第二数据块对应的元数据信息中添加第二位置标识,用以指示所述第二数据块在所述目标数据块中的位置。


7.如权利要求1-4任一项所述的方法,其特征在于,在将所述第一数据块和所述第二数据块进行合并并压缩之前,还包括:
确定所述第一数据块和所述第二数据块进行合并并压缩后,得到的目标数据块对应的数据缩减比达到设定的缩减比阈值。


8.一种数据处理装置,其特征在于,包括通信接口和处理器,所述处理器,用于:
通过所述通信接口获取多个数据块...

【专利技术属性】
技术研发人员:罗四维邱冬钱睿
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1