当前位置: 首页 > 专利查询>南华大学专利>正文

一种基于相似数据检测的云存储冗余数据预测方法和设备技术

技术编号:33706948 阅读:47 留言:0更新日期:2022-06-06 08:31
本发明专利技术提供了一种基于相似数据检测的云存储冗余数据预测方法和设备,其中方法包括:对云存储数据进行分块,得到数据块;遍历所有数据块,利用哈希算法计算出数据块对应的哈希指纹;利用N

【技术实现步骤摘要】
一种基于相似数据检测的云存储冗余数据预测方法和设备


[0001]本专利技术涉及计算机信息存储
,具体涉及一种基于相似数据检测的云存储冗余数据预测方法和设备。

技术介绍

[0002]在云存储备份的场景中,用户需要付出的资金往往与需要存储的数据成正比。通过备份前对存储数据进行重复数据与相似数据检测,能够有效节约大量存储空间,从而减少用户在购买存储空间上的非必要花销。
[0003]此前,Danny Harnik等提出一个重复数据删除估计领域的两阶段框架,该框架通过将数据分块,并将块级数据的哈希值作为其唯一标识,经过数据集采样与完整数据的扫描后,给出数据集的重复率。上述框架虽然能对重复数据进行准确估计,但并没有考虑备份数据中存在的相似数据。而有研究者提出的块级数据相似检测的方法如:N

transform和Finesse,但这两种方法仅对两个数据块是否相似进行判断,没有给出相似度的估计值,同时也缺少一种整体框架使之应用于重复数据删除估计场景中。

技术实现思路

[0004]本专利技术旨在一定程度上解决上述涉本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于相似数据检测的云存储冗余数据预测方法,其特征在于,所述云存储冗余数据预测方法包括:提取数据块的特征阶段:对云存储数据进行分块,得到数据块;遍历所有数据块,利用哈希算法计算出数据块对应的哈希指纹;利用N

transform方法计算数据块的相似特征组;采集样本集阶段:根据待预测的数据集的大小,确定所需数据块数目为m;遍历提取的所有数据块组成的集合,利用伯努利二项分布循环选取m个初始样本;遍历所述初始样本组成的初始样本集,基于所述哈希指纹和所述相似特征组进行判断,将其中不符合哈希指纹和相似特征组条件的重复数据块添加到基样本中,得到基样本集;预测阶段:遍历待预测的数据集,并基于所述基样本集确定重复数据和相似数据,从而计算数据冗余的估计值。2.如权利要求1所述的一种基于相似数据检测的云存储冗余数据预测方法,其特征在于,遍历所述初始样本组成的初始样本集,基于所述哈希指纹和所述相似特征组进行判断,将其中不符合哈希指纹和相似特征组条件的重复数据块添加到基样本中,得到基样本集,包括:初始化基样本为空,记录基样本中的每个数据块的属性:记录ρ
i
为数据块i的压缩率,如果未压缩,ρ
i
=1;记录base
i
为数据块i在初始样本中出现冗余的频数,初始化为1;记录count
i
为数据块i在整个数据集上出现冗余的频数,初始化为0;遍历所述初始样本集,并进行如下判断:如果基样本中存在与所述初始样本集中的当前数据块相同的数据块,相同数据块的哈希指纹也相同,则将当前基样本中的该数据块的属性base
i
+1;否则,遍历所述基样本,如果所述初始样本集中的当前数据块的相似特征组与基样本中某数据块的相似特征组维度相同,记录相似特征的个数,并计算相似度,如果计算的最大相似度大于设定的相似度阈值,则将该基样本的数据块的base
i
+相似度;否则将所述初始样本集中的当前数据块添加到基样本中生成基样本集。3.如权利要求1所述的一种基于相似数据检测的云存储冗余数据预测方法,其特征在于,遍历提取的所有数据块组成的集合,利用伯努利二项分布循环选取m个初始样本,包括:根据伯努利二项分布生...

【专利技术属性】
技术研发人员:田纹龙刘琪菲耿雨晴万亚平欧阳纯萍李跃刘洋何婷婷
申请(专利权)人:南华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1