分布式重复数据删除的方法及储存系统技术方案

技术编号:21627684 阅读:61 留言:0更新日期:2019-07-17 10:42
本申请公开了一种分布式重复数据删除储存系统及其分布式重复数据删除方法,可应用于物联网设备的数据中心。该系统包含数个储存单元,每一储存单元包含:数个待储存位置;控制单元,用以控制储存单元的运作;及分布式重复数据删除模块,用以提供或更新该确定性函数到该控制单元与边缘部件,及于控制单元和/或边缘部件中执行该方法的每一步骤。本申请提出的方法对重复数据删除不再单由储存系统(控制单元)执行,而是整个过程可以通过储存系统和与其相连接的边缘部件来实现。储存系统的负载可以因此减少。

Distributed Duplicate Data Deletion Method and Storage System

【技术实现步骤摘要】
分布式重复数据删除的方法及储存系统
本申请涉及物联网设备领域,特别是涉及一种分布式重复数据删除的方法及储存系统。
技术介绍
数据中心储存了供存取的大量数据。随着时间推移,相同的数据可能以不同的格式封装,例如,一张统计图分别嵌入到EXCEL文件或WORD文件中的,它占用相同数据的储存空间,因而浪费了储存空间。另一方面,对于从单一来源输入的连续数据,重复数据也会降低数据中心的执行性能。这在串流更新监视视频中经常出现,该视频包含多个连续帧,其中一个或多个角落保持不变。这不仅是储存空间的另一种浪费,也是有限带宽网络环境中数据传输的瓶颈。为了解决上述问题,现有技术提供了许多重复数据删除的方法。一种常用的方法是在数据中心的储存系统中使用重复数据删除表。传统上,重复数据删除表运作方式如下:将文件分成许多块或是可变大小单位;特征化每一块或可变大小单位为密码安全的哈希签名文件(hashsignature),例如,SHA-1;及索引连接哈希签名文件与储存位置以用于识别和消除重复。重复数据删除表通常保存在储存系统的RAM模块中。以经验法则来说,在Z文件系统(ZFileSystem,ZFS)中,重复数据删除表的大小计算是每1TB数据需要约5GB的RAM模块储存空间,在其他文件系统也几乎相同。对于一个ZB等级的数据中心,重复数据删除表的大小将延伸至5EB,这将成为一个无法承受的成本。
技术实现思路
基于此,有必要针对现有方法中删除重复数据时占用储存系统的RAM的储存空间过大的问题提出一种分布式重复数据删除的方法。本申请提出了一种分布式重复数据删除的方法,包含步骤:a)提供确定性函数到数个控制单元及连接该储存系统的边缘部件中,其中每一控制单元用于储存系统中的一储存单元;b)由该边缘部件分割该边缘部件中的待备份资料为数个具预定大小的待储存数据块;c)由该边缘部件,利用确定性函数,为每一待储存数据块计算一哈希值;d)由该边缘部件,利用确定性函数,为每一待储存数据块计算一待储存位置;e)由该确定性函数所选择的储存单元中的控制单元确认待储存数据块是否已存在于对应的待储存位置;f)传输待储存数据块到对应且不存在待储存数据块的待储存位置,及传输相关的哈希值到控制单元中;g)储存待储存数据块于对应的待储存位置,及储存哈希值于由该确定性函数所选择的储存单元中;及h)索引连接该储存的待储存数据块与对应的哈希值,及待储存位置,至该边缘部件及该储存单元中的控制单元。在本申请的一个实施例中,其中该确定性函数由哈希值变量、弹性方案、储存单元分布法则、服务质量政策或服务级别协议政策所驱动。在本申请的一个实施例中,在步骤h后包含步骤:i)由对应的储存单元中的控制单元,定期地确认是否所有储存的待储存数据块保存于对应的待储存位置;及j)如果步骤i的结果为非,再储存遗失的储存的待储存数据块。在本申请的一个实施例中,在步骤b与步骤c间包含步骤:b1)编码该待储存数据块以产生数个待储存奇偶校验块(To-Be-StoredParity)。在本申请的一个实施例中,在步骤b与步骤e间包含步骤:c1)由该边缘部件,利用确定性函数,为每一待储存奇偶校验块计算一哈希值;及d1)由该边缘部件,利用确定性函数,为每一待储存奇偶校验块计算一待储存位置。本申请还提出了一种分布式重复数据删除的方法,包含步骤:a)提供确定性函数到数个控制单元及连接该储存系统的边缘部件中,其中每一控制单元用于储存系统中的一储存单元;b)由该边缘部件分割该边缘部件中的待备份资料为数个具预定大小的待储存数据块;c)由该边缘部件,利用确定性函数,为每一待储存数据块计算一哈希值;d)由该边缘部件,利用确定性函数,为该待备份数据的N个副本的每一待储存数据块计算一待储存位置;e)由控制单元确认是否第一副本的待储存数据块已存在于对应的待储存位置;f)传输没有待储存数据块存在于其待储存位置的待储存数据块与在其它副本中相同待储存数据块的相关的待储存位置到对应的待储存位置,及传输相关的哈希值到控制单元;g)储存待储存数据块于对应的待储存位置,及储存哈希值于由该确定性函数所选择的储存单元中;h)复制传输的待储存数据块到其它副本中相同待储存数据块的待储存位置;及i)索引连接该储存的待储存数据块与对应的哈希值,及待储存位置,至该边缘部件及该储存单元中的控制单元。在本申请的一个实施例中,其中该确定性函数由哈希值变量、弹性方案、储存单元分布法则、服务质量(QualityofService,QoS)政策或服务级别协议(ServiceLevelAgreement,SLA)政策所驱动。在本申请的一个实施例中,在步骤h后包含步骤:j)由对应的储存单元中的控制单元,定期地确认是否所有储存的待储存数据块保存于对应的待储存位置;及k)如果步骤j的结果为非,为遗失的储存的待储存数据块制作一个新副本。在本申请的一个实施例中,在步骤b与步骤c间包含步骤:b1)编码该待储存数据块以产生数个待储存奇偶校验块。在本申请的一个实施例中,在步骤b与步骤e间包含步骤:c1)由该边缘部件,利用确定性函数,为每一待储存奇偶校验块计算一哈希值;及d1)由该边缘部件,利用确定性函数,为每一待储存奇偶校验块计算一待储存位置。相应的,本申请还提出了一种根据上述方法所达成用于物联网设备于数据中心备份的分布式重复数据删除的储存系统,包含数个储存单元,每一储存单元包含:数个待储存位置;控制单元,用以控制储存单元的运作;及分布式重复数据删除模块,用以提供或更新该确定性函数到该控制单元与边缘部件,及于控制单元和/或边缘部件中执行该方法的每一步骤。在本申请的一个实施例中,其中该分布式重复数据删除模块是安装于该控制单元中的硬件或软件。本申请提供的一种分布式重复数据删除方法,具有如下有益效果:在本专利技术中提供了一种分布式重复数据删除方法对重复数据删除不再单由储存系统(控制单元)执行,而是整个过程可以通过储存系统和与其相连接的边缘部件来实现。储存系统的负载可以因此减少。附图说明图1为本申请实施例提出的一种分布式重复数据删除的储存系统的应用场景,以及该储存系统的设施架构。图2为本申请实施例提出的一种分布式重复数据删除方法的流程图。图3为本申请实施例提出的一种分布式重复数据删除方法中使用的所有数据。图4为本申请实施例提出另一种分布式重复数据删除方法中使用的所有数据。图5为本申请实施例提出的一种分布式重复数据删除方法的流程图。图6为本申请实施例提出的一种分布式重复数据删除方法中使用的所有数据。图7为本申请实施例提出另一种分布式重复数据删除方法中使用的所有数据。主要元件符号说明10、储存系统;50、主机;101、第一控制单元;102、第二控制单元;103、第三控制单元;104、第四控制单元;105、第五控制单元;106、第六控制单元;107、第七控制单元;108、第八控制单元;110、分布式重复数据删除模块;201、第一储存单元;202、第二储存单元;203、第三储存单元;204、第四储存单元;205、第五储存单元;206、第六储存单元;207、第七储存单元;208、第八储存单元;300、网络;410、个人计算机;420、智能型手机;430、嵌入式传感器;440、监视器;450、远程跟踪设备。具体实本文档来自技高网...

【技术保护点】
1.一种分布式重复数据删除的方法,其特征在于,包含步骤:a)提供确定性函数到数个控制单元及连接该储存系统的边缘部件中,其中每一控制单元用于储存系统中的一储存单元;b)由该边缘部件分割该边缘部件中的待备份资料为数个具预定大小的待储存数据块;c)由该边缘部件,利用确定性函数,为每一待储存数据块计算一哈希值;d)由该边缘部件,利用确定性函数,为每一待储存数据块计算一待储存位置;e)由该确定性函数所选择的储存单元中的控制单元确认待储存数据块是否已存在于对应的待储存位置;f)传输待储存数据块到对应且不存在待储存数据块的待储存位置,及传输相关的哈希值到控制单元中;g)储存待储存数据块于对应的待储存位置,及储存哈希值于由该确定性函数所选择的储存单元中;及h)索引连接该储存的待储存数据块与对应的哈希值,及待储存位置,至该边缘部件及该储存单元中的控制单元。

【技术特征摘要】
1.一种分布式重复数据删除的方法,其特征在于,包含步骤:a)提供确定性函数到数个控制单元及连接该储存系统的边缘部件中,其中每一控制单元用于储存系统中的一储存单元;b)由该边缘部件分割该边缘部件中的待备份资料为数个具预定大小的待储存数据块;c)由该边缘部件,利用确定性函数,为每一待储存数据块计算一哈希值;d)由该边缘部件,利用确定性函数,为每一待储存数据块计算一待储存位置;e)由该确定性函数所选择的储存单元中的控制单元确认待储存数据块是否已存在于对应的待储存位置;f)传输待储存数据块到对应且不存在待储存数据块的待储存位置,及传输相关的哈希值到控制单元中;g)储存待储存数据块于对应的待储存位置,及储存哈希值于由该确定性函数所选择的储存单元中;及h)索引连接该储存的待储存数据块与对应的哈希值,及待储存位置,至该边缘部件及该储存单元中的控制单元。2.如权利要求1所述的方法,其特征在于,其中该确定性函数由哈希值变量、弹性方案、储存单元分布法则、服务质量政策或服务级别协议政策所驱动。3.如权利要求1所述的方法,其特征在于,在步骤h后包含步骤:i)由对应的储存单元中的控制单元,定期地确认是否所有储存的待储存数据块保存于对应的待储存位置;及j)如果步骤i的结果为非,再储存遗失的储存的待储存数据块。4.如权利要求1所述的方法,其特征在于,在步骤b与步骤c间包含步骤:b1)编码该待储存数据块以产生数个待储存奇偶校验块(To-Be-StoredParity)。5.如权利要求4所述的方法,其特征在于,在步骤b与步骤e间包含步骤:c1)由该边缘部件,利用确定性函数,为每一待储存奇偶校验块计算一哈希值;及d1)由该边缘部件,利用确定性函数,为每一待储存奇偶校验块计算一待储存位置。6.一种分布式重复数据删除的方法,其特征在于,包含步骤:a)提供确定性函数到数个控制单元及连接该储存系统的边缘部件中,其中每一控制单元用于储存系统中的一储存单元;b)由该边缘部件分割该边缘部件中的待备份资料为数个具预定大小的待储存数据块;c)由该边缘部件,利用确定性函数,为...

【专利技术属性】
技术研发人员:陈文贤谢文杰
申请(专利权)人:先智云端数据股份有限公司
类型:发明
国别省市:中国台湾,71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1