本发明专利技术公开了一种分布式网络数据的销毁方法、系统、装置及存储介质,包括以下步骤:对待删除数据使用数据块变长算法分块;使用哈希算法对每个数据块计算指纹,对预设数量的连续数据块依次进行合并生成一定长度的较大的块,称为超块;将超块对应的指纹按固定的采样率进行采样,并保存指纹采样信息;将指纹采样信息以及删除指令发送给各个节点服务器;各个节点服务器根据指纹采样信息使用布隆过滤器计算在当前节点服务器上查找重复的指纹,以便找出重复的目标数据;删除各个节点服务器重复的目标数据。本发明专利技术提出了一种结合指纹抽样和超块的方式,缩短了查询时间,提高吞吐率。解决了现有分布式数据删除方式速度较慢的问题。有分布式数据删除方式速度较慢的问题。有分布式数据删除方式速度较慢的问题。
【技术实现步骤摘要】
一种分布式网络数据的销毁方法、系统、装置及存储介质
[0001]本专利技术属于分布式数据存储
,具体涉及分布式网络数据的销毁方法、系统、装置及存储介质。
技术介绍
[0002]分布式数据存储技术中,相对于磁盘、分区这些物理卷,可以将物理卷的空间加以管理之后,虚拟出逻辑卷(LogicalVolume),逻辑卷将存储虚拟化,存储不再受限于物理磁盘的大小。使用逻辑卷,文件系统可以扩展到多个磁盘上,聚合多个磁盘或磁盘分区成一个逻辑卷,创建出来的逻辑卷在用户没有写入数据的时候,可以不用真实分配物理存储空间,而是到了写入的时候,动态分配物理存储空间,从而达到节省物理存储空间,延迟成本投入等目的。
[0003]卷删除功能是块存储的基本功能,在传统分布式块存储系统中,卷删除操作包括了卷的元数据删除与数据对象删除操作,卷删除需要等待两部分数据全部删除完成后才算完成。
[0004]在数据备份时,需要对其不需要的重复数据进行销毁删除;或者直接将云端数据进行销毁删除时,现有分布式数据删除方式速度较慢的问题,而且也存在删除数据不彻底的问题。
[0005]另外,现今企业在备份、归档领域主要使用有状态数据路由方法来建立分布式数据存储中心。然而现有的分布式重复数据删除系统采用的路由方法存在指纹查询时间长、系统的吞吐率低、恢复性能差等问题。
技术实现思路
[0006]本专利技术的目的是提供分布式网络数据的销毁方法、系统、装置及存储介质,用以解决现有分布式数据删除方式速度较慢的问题。
[0007]为了实现上述目的,本专利技术采用以下技术方案:一种分布式网络数据的销毁方法,包括以下步骤:对待删除数据使用数据块变长算法分块;使用哈希算法对每个数据块计算指纹,对预设数量的连续数据块依次进行合并生成一定长度的较大的块,称为超块;将超块对应的指纹按固定的采样率进行采样,并保存指纹采样信息;将指纹采样信息以及删除指令发送给各个节点服务器;各个节点服务器根据指纹采样信息使用布隆过滤器计算在当前节点服务器上查找重复的指纹,以便找出重复的目标数据;删除各个节点服务器重复的目标数据。
[0008]根据上述技术,提出了一种结合指纹抽样和超块的方式,缩短了查询时间,提高吞吐率。解决了现有分布式数据删除方式速度较慢的问题。
[0009]在一种可能的设计中,将指纹以及删除指令发送给各个节点服务器的方法包括:从分布式网络数据库中获取目标数据的存储路径;根据所述存储路径确定目标数据所在的各个节点服务器;向各个节点服务器发送指纹和目标数据删除指令。
[0010]在一种可能的设计中,如果某个指纹没在各个节点服务器指纹表里找到,则把该指纹对应数据块会进行存放;如果找到一致指纹,则删除该指纹和数据。
[0011]在一种可能的设计中,当遇到一个重复数据块时,将指向其副本的指针添加到缓冲区;当遇到一个新数据块时,将其写入容器缓冲区,当容器缓冲区满时一次性写入容器存储;最后将数据块的指纹及其元数据以键值对的形式插入指纹索引。
[0012]在一种可能的设计中,各个节点服务器收到指纹采样信息;使用布隆过滤器计算在当前节点服务器上查找重复指纹时还进行统计重复指纹的数量,并计算当前节点服务器上的指纹重复率和数据节点服务器的存储空间利用率的比值,将该比值作为权重值发送给客户端;收到所有节点服务器发送来的权重值并对结果进行排序,选择最高的Z个权重值对应的节点服务器发送超块的全部指纹信息;Z个权重值最高节点服务器接收到客户端发送的所有数据块指纹之后,查找数据块对应的数据碎片,并将数据碎片量返回给客户端;接收到Z个节点服务器对应的数据碎片量之后,选择碎片量最少的一个节点服务器,作为路由节点服务器;将超快以及超快对应的全部指纹信息传输到该节点服务器。
[0013]在对用户数据的指纹处理时,进行了数据块的合并和指纹的抽样处理。另外由于节点服务器只对从用户发送的部分指纹采用布隆过滤器进行查询,避免指纹查询所需的计算和内存瓶颈。同时在确定数据块路由节点时,优先考虑系统整体重删率,但同时也考虑到了各个节点的存储空间利用率和磁盘碎片情况,使系统可以保持较好重删效果,还可以实现负载均衡而且获得较好的数据恢复性能。
[0014]在一种可能的设计中,将超块对应的指纹按固定的采样率进行采样的方法包括:采用等距抽样的方法对超块对应的指纹序列进行抽样,生成抽样指纹序列;所述等距抽样方法包括:首先将超块中各个数据块按数据流的先后顺序进行排列,根据需要抽取的指纹个数n确定抽样的间隔,选取一个随机的起点指纹之后,间隔固定的长度对指纹序列进行指纹的抽样;等距抽样时,先将超块里对应数据块指纹按1
‑
N进行排序,选取取样间隔K=N/n;其中N是超块里对应数据块指纹个数,n是需要抽取的指纹数目;然后在1
‑
K个指纹中随机抽取一个指纹k1作为抽样的起点,k1为指纹序列的第一个单位,接着依次取k1+K,k1+2K......,直至抽取完成n个指纹,生成抽样指纹序列。
[0015]第二方面,本专利技术提供了一种分布式网络数据的销毁系统,包括多个客户端和多个节点服务器;客户端包括指纹处理模块以及路由模块;数据节点服务器包括布隆过滤器查找模块和去重模块;所述指纹处理模块中包括数据分块单元、生成指纹单元、合并块单元和指纹抽样单元,所述数据分块单元用于对待删除数据使用数据块变长算法分块;生成指纹单元使用哈希算法对每个数据块计算指纹,合并块单元对预设数量的连续数据块依次进行合并生成一定长度的较大的块,称为超块;指纹抽样单元用于将超块对应的指纹按固定的采样率进
行采样,并保存指纹采样信息;路由模块用于将指纹采样信息以及删除指令发送给各个节点服务器;所述布隆过滤器查找模块用于计算在当前节点服务器上查找重复的指纹,以便找出重复的目标数据;去重模块用于响应于客户端传来的删除指令删除节点服务器重复的目标数据块。
[0016]在一种可能的设计中,所述布隆过滤器查找模块还用于在当前节点服务器上查找重复指纹时还进行统计重复指纹的数量,并计算当前节点服务器上的指纹重复率和数据节点服务器的存储空间利用率的比值,将该比值作为权重值发送给客户端;所述路由模块收到所有节点服务器发送来的权重值并对结果进行排序,选择最高的Z个权重值对应的节点服务器发送超块的全部指纹信息;所述节点服务器还包括碎片查找模块,所述碎片查找模块用于在Z个权重值最高节点服务器接收到客户端发送的所有数据块指纹之后,查找数据块对应的数据碎片,并将数据碎片量返回给客户端;客户端接收到Z个节点服务器对应的数据碎片量之后,选择碎片量最少的一个节点服务器,作为路由节点服务器;将超快以及超快对应的全部指纹信息传输到该节点服务器。
[0017]本专利技术第三方面提供了一种分布式网络数据的销毁装置,包括存储器和处理器,所述存储器与处理器之间通过总线相互连接;所述存储器存储计算机执行指令;所述处理器执行存储器存储的计算机执行指令,使得处理器执行如第一方面以及第一方面中任意一种可能的设计中所述的分布式网络数据的销毁方法本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种分布式网络数据的销毁方法,其特征在于,包括以下步骤:对待删除数据使用数据块变长算法分块,得到多个数据块;使用哈希算法对每个数据块计算指纹,对预设数量的连续数据块依次进行合并生成一定长度的块,称为超块;将超块对应的指纹按固定的采样率进行采样,并保存指纹采样信息;将指纹采样信息以及删除指令发送给各个节点服务器;各个节点服务器根据指纹采样信息使用布隆过滤器计算在当前节点服务器上查找重复的指纹,以便找出重复的目标数据;删除各个节点服务器重复的目标数据。2.根据权利要求1所述的分布式网络数据的销毁方法,其特征在于,将指纹以及删除指令发送给各个节点服务器的方法包括:从分布式网络数据库中获取目标数据的存储路径;根据所述存储路径确定目标数据所在的各个节点服务器;向各个节点服务器发送指纹和目标数据删除指令。3.根据权利要求1所述的分布式网络数据的销毁方法,其特征在于,如果某个指纹没在各个节点服务器指纹表里找到,则把该指纹对应的数据会进行存放;如果找到一致指纹,则删除该指纹和数据。4.根据权利要求3所述的分布式网络数据的销毁方法,其特征在于,当遇到一个重复数据块时,将指向其副本的指针添加到缓冲区;当遇到一个新数据块时,将其写入容器缓冲区,当容器缓冲区满时一次性写入容器存储;最后将数据块的指纹及其元数据以键值对的形式插入指纹索引。5.根据权利要求1所述的分布式网络数据的销毁方法,其特征在于,各个节点服务器收到指纹采样信息;使用布隆过滤器计算在当前节点服务器上查找重复指纹时还进行统计重复指纹的数量,并计算当前节点服务器上的指纹重复率和数据节点服务器的存储空间利用率的比值,将该比值作为权重值发送给客户端;收到所有节点服务器发送来的权重值并对结果进行排序,选择最高的Z个权重值对应的节点服务器发送超块的全部指纹信息;Z个权重值最高节点服务器接收到客户端发送的所有数据块指纹之后,查找数据块对应的数据碎片,并将数据碎片量返回给客户端;接收到Z个节点服务器对应的数据碎片量之后,选择碎片量最少的一个节点服务器,作为路由的节点服务器;将超快以及超快对应的全部指纹信息传输到该节点服务器。6.根据权利要求1所述的分布式网络数据的销毁方法,其特征在于,将超块对应的指纹按固定的采样率进行采样的方法包括:采用等距抽样的方法对超块对应的指纹序列进行抽样,生成抽样指纹序列;所述等距抽样方法包括:首先将超块中各个数据块按数据流的先后顺序进行排列,根据需要抽取的指纹个数n确定抽样的间隔,选取一个随机的起点指纹之后,间隔固定的长度对指纹序列进行指纹的抽样;等距抽样时,先将超块里对应...
【专利技术属性】
技术研发人员:赵龙,高莉红,
申请(专利权)人:北京和升达信息安全技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。