基于分布式文件系统的多层重复数据删除方法及装置制造方法及图纸

技术编号:15301649 阅读:94 留言:0更新日期:2017-05-12 18:59
本发明专利技术公开了一种基于分布式文件系统的多层重复数据删除方法,包括以下步骤:获取待写入文件的数字指纹;判断全局文件数字指纹列表中是否存在待写入文件的数字指纹;若是,则记录待写入文件的元数据信息;若否,则将待写入文件按预设方式切片,并获取每个切片的数字指纹;判断全局文件切片数字指纹列表中是否存在切片的数字指纹;若是,则将切片的元数据信息记录到存储节点中;若否,则将切片及该切片的数字指纹发送到对应的存储节点。本发明专利技术还公开了一种基于分布式文件系统的多层重复数据删除装置。本发明专利技术的技术方案通过对文件或切片的数字指纹进行存储,提高了对重复数据的删除效果,节约了存储空间。

Method and apparatus for multi-layer duplicate data deletion based on distributed file system

The invention discloses a method for deleting multilayer distributed file system based on duplicate data, comprising the following steps: acquiring digital fingerprint to be written to the file; judging whether there is to be written to the file of the global digital fingerprint digital fingerprint file list; if so, the record is to be written into the file metadata information; if not, it will be written the file according to the preset mode section, digital fingerprint and obtain each slice; judging whether there were global digital fingerprint digital fingerprint file slices in the list; if so, the metadata information recording section to the storage node; if not, the fingerprint section and the slice number is sent to the corresponding storage node. The invention also discloses a multi-layer duplicate data deletion device based on a distributed file system. The technical proposal of the invention stores the digital fingerprints of the files or sections, thereby improving the effect of deleting the repeated data and saving the storage space.

【技术实现步骤摘要】

本专利技术涉及信息存储领域,尤其涉及基于分布式文件系统的多层重复数据删除方法及装置
技术介绍
现有的分布式文件系统中会使用重复数据删除技术对重复数据进行存储以提高磁盘利用率,降低成本。但是随着技术和信息的发展,文件变得越来越多样化,整个文件内容完全相同的几率越来越小。例如,开发者会根据自己的需求对软件做出针对性的修改,这种情况下,修改后的软件与原软件存在细微差异,现有的重复数据删除方法对重复数据的删除率较低。
技术实现思路
本专利技术的主要目的在于提供一种基于分布式文件系统的多层重复数据删除方法及装置,旨在提高对重复数据的删除率。为实现上述目的,本专利技术提供一种基于分布式文件系统的多层重复数据删除方法,所述方法包括以下步骤:获取待写入文件的数字指纹;判断全局文件数字指纹列表中是否存在所述待写入文件的数字指纹;若是,则记录所述待写入文件的元数据信息;若否,则将待写入文件按预设方式切片,并获取每个切片的数字指纹;判断全局文件切片数字指纹列表中是否存在所述切片的数字指纹;若是,则将所述切片的元数据信息记录到存储节点中;若否,则将所述切片及该切片的数字指纹发送到对应的存储节点。优选的,所述将所述切片及该切片的数字指纹发送到对应的存储节点之后还包括步骤:判断当前存储节点的切片数字指纹列表中是否存在所述切片的数字指纹;若是,则确认该切片写入成功;若否,则写入所述切片,并将所述切片的数字指纹记录到本存储节点的切片数字指纹列表。优选的,所述将所述切片写入磁盘,并将所述切片的数字指纹记录到本存储节点的切片数字指纹列表之后还包括步骤:定时获取系统负载;当系统负载低于预设值时,将每个存储节点的切片数字指纹列表中的信息上传至所述全局切片数字指纹列表。优选的,所述将待写入文件按预设方式切片,并获取每个切片的数字指纹具体包括步骤:判断所述待写入文件的大小是否大于预设值;若是,则将所述待写入文件按预设大小切片;若否,则将所述待写入文件整体确定为一个切片。优选的,所述获取待写入文件的数字指纹具体包括步骤:获取所述待写入文件的MD5校验值和sha值;将所述MD5校验值和sha值的字符串叠加作为待写入文件的数字指纹。此外,为实现上述目的,本专利技术还提供一种基于分布式文件系统的多层重复数据删除装置,包括:第一获取模块,用于获取待写入文件的数字指纹;第一判断模块,用于判断全局文件数字指纹列表中是否存在所述待写入文件的数字指纹;第一记录模块,用于在所述第一判断模块的判断结果为“是”时,记录所述待写入文件的元数据信息;切片模块,用于在所述第一判断模块的判断结果为“否”时,将待写入文件按预设方式切片,并获取每个切片的数字指纹;第二判断模块,用于判断全局文件切片数字指纹列表中是否存在所述切片的数字指纹;第二记录模块,用于在所述第二判断模块的判断结果为“是”时,将所述切片的元数据信息记录到存储节点中;发送模块,用于在所述第二判断模块的判断结果为“否”时,将所述切片及该切片的数字指纹发送到对应的存储节点。优选的,还包括:第三判断模块,用于判断当前存储节点的切片数字指纹列表中是否存在所述切片的数字指纹;确认模块,用于在所述第三判断模块判断为“是”时时,确认该切片写入成功;写入模块,用于在所述第三判断模块判断为“否”时,写入所述切片,并将所述切片的数字指纹记录到本存储节点的切片数字指纹列表。优选的,还包括:第二获取模块,用于定时获取系统负载;上传模块,用于在系统负载低于预设值时,将每个存储节点的切片数字指纹列表中的信息上传至所述全局切片数字指纹列表。优选的,所述切片模块具体包括:判断单元,用于判断所述待写入文件的大小是否大于预设值;切片单元,用于在所述判断单元判断为“是”时,将所述待写入文件按预设大小切片;确定单元,用于在所述判断单元判断为“否”时,将所述待写入文件整体确定为一个切片。优选的,所述第一获取模块具体包括:获取单元,用于获取所述待写入文件的MD5校验值和sha值;叠加单元,用于将所述MD5校验值和sha值的字符串叠加作为待写入文件的数字指纹。本专利技术的实施例包括以下步骤:获取待写入文件的数字指纹;判断全局文件数字指纹列表中是否存在所述待写入文件的数字指纹;若是,则记录所述待写入文件的元数据信息;若否,则将待写入文件按预设方式切片,并获取每个切片的数字指纹;判断全局文件切片数字指纹列表中是否存在所述切片的数字指纹;若是,则将所述切片的元数据信息记录到存储节点中;若否,则将所述切片及该切片的数字指纹发送到对应的存储节点。本专利技术的技术方案通过对文件或切片的数字指纹进行存储,提高了对重复数据的删除率,节约了存储空间。附图说明图1为本专利技术的方法一实施例的流程示意图;图2为本专利技术的方法第二实施例的流程示意图;图3为本专利技术的方法第三实施例的流程示意图;图4为本专利技术的装置一实施例的功能模块示意图;图5为本专利技术的装置第二实施例功能模块示意图;图6为本专利技术的装置第四实施例中切片模块的细化功能模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种基于分布式文件系统的多层重复数据删除方法。分布式系统(distributedsystem)是建立在网络之上的软件系统,具有高度的内聚性和透明性。内聚性是指每一个数据库分布节点高度自治,有本地的数据库管理系统。透明性是指每一个数据库分布节点对用户的应用来说都是透明的,看不出是本地还是远程。在分布式数据库系统中,用户感觉不到数据是分布的,即用户不须知道关系是否分割、有无副本、数据存于哪个站点以及事务在哪个站点上执行等。独立的计算机展现给用户的是一个统一的整体,就好像是一个系统,该系统拥有多种通用的物理和逻辑资源,可以动态的分配任务,分散的物理和逻辑资源通过计算机网络实现信息交换。最典型的的分布式系统就是万维网(WorldWideWeb)。现在提出本申请的方法的第一实施例。如图1所示,所述方法包括以下步骤:S100、获取待写入文件的数字指纹。数字指纹是根据文件的内容生成的唯一性的数字编码,常见的数字指纹通常有MD5(MessageDigestAlgorithm信息摘要算法第5版)、sha1(安全哈希算法SecureHashAlgorithm)等。每个文件通过预设的函数或算法生成唯一的数字指纹,由于函数和算法的唯一性,即使两个文件中仅有细微差异,得到的数字指纹也相距甚远,因此校验文件的数字指纹是判断文件是否相同的可靠依据。本实施例中,当接收到来自客户端的文件写入请求时,先获取该待写入文件的数字指纹。S200、判断全局文件数字指纹列表中是否存在所述待写入文件的数字指纹;若是,则执行S210步骤,若否,则执行S220步骤。进一步的,当在获取所述待写入文件的数字指纹后,在判断全局文件数字指纹列表中是否存在相应的数字指纹。这里的全局文件数字指纹列表指的是存储有所述分布式文件系统中所有完整文件数字指纹的列表。若该全局文件数字指纹列表中存在待写入文件的数字指纹,则原文件系统中存在数字指纹与待写入文件数字指纹相同的文件,由数字指纹的唯一性可以确定,原文件系统中已经存在与待写入文件相同的文件,此时继续执行S210步骤;反之,若本文档来自技高网...
基于分布式文件系统的多层重复数据删除方法及装置

【技术保护点】
一种基于分布式文件系统的多层重复数据删除方法,其特征在于,所述方法包括以下步骤:获取待写入文件的数字指纹;判断全局文件数字指纹列表中是否存在所述待写入文件的数字指纹;若是,则记录所述待写入文件的元数据信息;若否,则将待写入文件按预设方式切片,并获取每个切片的数字指纹;判断全局文件切片数字指纹列表中是否存在所述切片的数字指纹;若是,则将所述切片的元数据信息记录到存储节点中;若否,则将所述切片及该切片的数字指纹发送到对应的存储节点。

【技术特征摘要】
1.一种基于分布式文件系统的多层重复数据删除方法,其特征在于,所述方法包括以下步骤:获取待写入文件的数字指纹;判断全局文件数字指纹列表中是否存在所述待写入文件的数字指纹;若是,则记录所述待写入文件的元数据信息;若否,则将待写入文件按预设方式切片,并获取每个切片的数字指纹;判断全局文件切片数字指纹列表中是否存在所述切片的数字指纹;若是,则将所述切片的元数据信息记录到存储节点中;若否,则将所述切片及该切片的数字指纹发送到对应的存储节点。2.如权利要求1所述的基于分布式文件系统的多层重复数据删除方法,其特征在于,所述将所述切片及该切片的数字指纹发送到对应的存储节点之后还包括步骤:判断当前存储节点的切片数字指纹列表中是否存在所述切片的数字指纹;若是,则确认该切片写入成功;若否,则写入所述切片,并将所述切片的数字指纹记录到本存储节点的切片数字指纹列表。3.如权利要求2所述的基于分布式文件系统的多层重复数据删除方法,其特征在于,所述将所述切片写入磁盘,并将所述切片的数字指纹记录到本存储节点的切片数字指纹列表之后还包括步骤:定时获取系统负载;当系统负载低于预设值时,将每个存储节点的切片数字指纹列表中的信息上传至所述全局切片数字指纹列表。4.如权利要求1-3任一项所述的基于分布式文件系统的多层重复数据删除方法,其特征在于,所述将待写入文件按预设方式切片,并获取每个切片的数字指纹具体包括步骤:判断所述待写入文件的大小是否大于预设值;若是,则将所述待写入文件按预设大小切片;若否,则将所述待写入文件整体确定为一个切片。5.如权利要求1-3任一项所述的基于分布式文件系统的多层重复数据删除方法,其特征在于,所述获取待写入文件的数字指纹具体包括步骤:获取所述待写入文件的MD5校验值和sha值;将所述MD5校验值和sha值的字符串叠加作为待写入文件的数字指纹。6.一种基于分布式文件系统的多层重复数据删除装置,其特征在于,包括:第一获取模块,用于获取待写入文件的数字指纹;第一判断模块,用于判断全局...

【专利技术属性】
技术研发人员:李发明张勤
申请(专利权)人:深圳市中博睿存科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1