使用基于相似性的数据缩减在数据存储设备中存储数据页的方法技术

技术编号:38861255 阅读:28 留言:0更新日期:2023-09-17 10:03
提供了一种将接收到的数据页(202)存储在数据存储设备(102)中的方法。所述方法包括(i)当所述接收到的数据页被接收时,获得包括一组样本的样本集,其中,所述一组样本包括所述接收到的数据页的两个或两个以上样本,(ii)为所述两个或两个以上样本中的每个样本计算新的哈希值,(iii)标识与键值存储(300)中的一个或多个预计算哈希值关联的一个或多个页标识符(302AA至302NN、404AA至404NN),(iv)按标识的页标识符被标识的次数对其进行排序,(v)确定所述接收到的数据页与对应于一个或多个排序标识符的一个或多个页之间的相似度,其中,所述相似度由多个匹配数据子字符串测量,所述子字符串是块或页中的字节序列,(vi)根据所述相似度处理所述接收到的数据页。似度处理所述接收到的数据页。似度处理所述接收到的数据页。

【技术实现步骤摘要】
【国外来华专利技术】使用基于相似性的数据缩减在数据存储设备中存储数据页的方法


[0001]本专利技术大体上涉及一种将接收到的数据页存储在数据存储设备中的方法,更具体地,本专利技术涉及一种控制单元,用于使数据存储设备存储接收到的数据页。此外,本专利技术还涉及一种数据存储设备,包括用于存储接收到的数据页的控制单元。

技术介绍

[0002]现代计算机使用有限的存储器来保存代码和数据。计算机存储器在访问速度和(非)易失性方面表现各异。目前,易失性存储器比非易失性存储器快,因此适合编码和存储数据,以加快计算速度。例如,随机存取存储器(random access memory,RAM)通常用作易失性存储器。一些使用情形,例如物联网(Internet of Things,IoT),可能需要将可变应用程序数据放置在非易失性存储器中。为了提高执行速度,部分代码和数据也可以放入中央处理单元(Central Processing Unit,CPU)代码缓存(code cache,C

cache)和数据缓存(data cache,D
r/>cache)中本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种将接收到的数据页(202)存储在包括预存储数据块或数据页的数据存储设备(102)中的方法,其特征在于,所述数据存储设备(102)包括键值存储(300),其中,所述键值存储(300)具有预存储数据块或数据页的多个标识符(302AA至302NN、404AA至404NN),所述标识符(302AA至302NN、404AA至404NN)将从存储在所述数据存储设备(102)中的所述预存储数据块或数据页的样本计算的多个预计算哈希值与一个或多个块或页关联,所述一个或多个块或页是样本提取以及所述预计算哈希值中相应哈希值的获取来源;所述数据存储设备(102)还包括元数据,其中,所述元数据包括表示所述数据存储设备(102)中的每个预存储数据块或数据页的物理地址的数据,当所述数据存储设备(102)接收数据页(202)时,所述方法包括以下步骤:获取均匀间隔的样本集,其中,所述均匀间隔的样本集包括所述接收到的数据页(202)的两个或两个以上样本;为所述两个或两个以上样本中的每个样本计算新的哈希值;标识与所述键值存储(300)中的一个或多个预计算哈希值关联的一个或多个标识符(302AA至302NN、404AA至404NN);按标识的标识符被标识的次数对其进行排序;确定所述接收到的数据页(202)与对应于一个或多个排序标识符的一个或多个页之间的相似度,其中,所述相似度由多个匹配数据子字符串测量,所述子字符串是块或页中的字节序列;根据所述相似度处理所述接收到的数据页(202)。2.根据权利要求1所述的方法,其特征在于,所述键值存储(300)是哈希表。3.根据权利要求1所述的方法,其特征在于,所述处理所述接收到的数据页(202)的步骤包括:如果所述接收到的数据页(202)与所述一个或多个预存储数据页之间的相似度高于第一阈值,则选择相似度高于所述第一阈值的一个或多个预存储数据页,并对所选择的一个或多个预存储数据页执行以下步骤:比较所述接收到的数据页(202)和所述所选择的一个或多个预存储数据页的内容;如果所述接收到的数据页(202)和所述所选择的预存储数据页相同,则存储所述接收到的数据页(202)的元数据中的新条目,所述新条目将所述接收到的数据页(202)与所述所选择的预存储数据页关联;如果所述接收到的数据页(202)和所述所选择的预存储数据页相似但不相同,则使用所述所选择的预存储数据页作为词典对所述接收到的数据页(202)进行增量压缩,将压缩结果写入存储介质上,并将写入的数据页或块的地址存储在所述元数据中,作为块/页标识符,以及将一个或多个条目添加到所述键值存储(300)中,所述一个或多个条目将所述接收到的数据页(202)与块/页标识符和计算所述哈希值的偏移关联;如果所述相似度低于上述第一阈值,则单独压缩所述接收到的数据页(202),将所述压缩后的接收到的数据页写入所述数据存储设备(102)中,将所述写入页的地址存储在所述元数据中,并将与计算哈希值的样本偏移组合的新的页标识符添加到所述键值存储(300)中。
4.根据权利要求3所述的方法,其特征在于,所述接收到的数据块或数...

【专利技术属性】
技术研发人员:阿列克谢
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1