The invention discloses a method for deleting multilayer distributed file system based on duplicate data, comprising the following steps: acquiring digital fingerprint to be written to the file; judging whether there is to be written to the file of the global digital fingerprint digital fingerprint file list; if so, the record is to be written into the file metadata information; if not, it will be written the file according to the preset mode section, digital fingerprint and obtain each slice; judging whether there were global digital fingerprint digital fingerprint file slices in the list; if so, the metadata information recording section to the storage node; if not, the fingerprint section and the slice number is sent to the corresponding storage node. The invention also discloses a multi-layer duplicate data deletion device based on a distributed file system. The technical proposal of the invention stores the digital fingerprints of the files or sections, thereby improving the effect of deleting the repeated data and saving the storage space.
【技术实现步骤摘要】
本专利技术涉及信息存储领域,尤其涉及基于分布式文件系统的多层重复数据删除方法及装置。
技术介绍
现有的分布式文件系统中会使用重复数据删除技术对重复数据进行存储以提高磁盘利用率,降低成本。但是随着技术和信息的发展,文件变得越来越多样化,整个文件内容完全相同的几率越来越小。例如,开发者会根据自己的需求对软件做出针对性的修改,这种情况下,修改后的软件与原软件存在细微差异,现有的重复数据删除方法对重复数据的删除率较低。
技术实现思路
本专利技术的主要目的在于提供一种基于分布式文件系统的多层重复数据删除方法及装置,旨在提高对重复数据的删除率。为实现上述目的,本专利技术提供一种基于分布式文件系统的多层重复数据删除方法,所述方法包括以下步骤:获取待写入文件的数字指纹;判断全局文件数字指纹列表中是否存在所述待写入文件的数字指纹;若是,则记录所述待写入文件的元数据信息;若否,则将待写入文件按预设方式切片,并获取每个切片的数字指纹;判断全局文件切片数字指纹列表中是否存在所述切片的数字指纹;若是,则将所述切片的元数据信息记录到存储节点中;若否,则将所述切片及该切片的数字指纹发送到对应的存储节点。优选的,所述将所述切片及该切片的数字指纹发送到对应的存储节点之后还包括步骤:判断当前存储节点的切片数字指纹列表中是否存在所述切片的数字指纹;若是,则确认该切片写入成功;若否,则写入所述切片,并将所述切片的数字指纹记录到本存储节点的切片数字指纹列表。优选的,所述将所述切片写入磁盘,并将所述切片的数字指纹记录到本存储节点的切片数字指纹列表之后还包括步骤:定时获取系统负载;当系统负载低于预设值时 ...
【技术保护点】
一种基于分布式文件系统的多层重复数据删除方法,其特征在于,所述方法包括以下步骤:获取待写入文件的数字指纹;判断全局文件数字指纹列表中是否存在所述待写入文件的数字指纹;若是,则记录所述待写入文件的元数据信息;若否,则将待写入文件按预设方式切片,并获取每个切片的数字指纹;判断全局文件切片数字指纹列表中是否存在所述切片的数字指纹;若是,则将所述切片的元数据信息记录到存储节点中;若否,则将所述切片及该切片的数字指纹发送到对应的存储节点。
【技术特征摘要】
1.一种基于分布式文件系统的多层重复数据删除方法,其特征在于,所述方法包括以下步骤:获取待写入文件的数字指纹;判断全局文件数字指纹列表中是否存在所述待写入文件的数字指纹;若是,则记录所述待写入文件的元数据信息;若否,则将待写入文件按预设方式切片,并获取每个切片的数字指纹;判断全局文件切片数字指纹列表中是否存在所述切片的数字指纹;若是,则将所述切片的元数据信息记录到存储节点中;若否,则将所述切片及该切片的数字指纹发送到对应的存储节点。2.如权利要求1所述的基于分布式文件系统的多层重复数据删除方法,其特征在于,所述将所述切片及该切片的数字指纹发送到对应的存储节点之后还包括步骤:判断当前存储节点的切片数字指纹列表中是否存在所述切片的数字指纹;若是,则确认该切片写入成功;若否,则写入所述切片,并将所述切片的数字指纹记录到本存储节点的切片数字指纹列表。3.如权利要求2所述的基于分布式文件系统的多层重复数据删除方法,其特征在于,所述将所述切片写入磁盘,并将所述切片的数字指纹记录到本存储节点的切片数字指纹列表之后还包括步骤:定时获取系统负载;当系统负载低于预设值时,将每个存储节点的切片数字指纹列表中的信息上传至所述全局切片数字指纹列表。4.如权利要求1-3任一项所述的基于分布式文件系统的多层重复数据删除方法,其特征在于,所述将待写入文件按预设方式切片,并获取每个切片的数字指纹具体包括步骤:判断所述待写入文件的大小是否大于预设值;若是,则将所述待写入文件按预设大小切片;若否,则将所述待写入文件整体确定为一个切片。5.如权利要求1-3任一项所述的基于分布式文件系统的多层重复数据删除方法,其特征在于,所述获取待写入文件的数字指纹具体包括步骤:获取所述待写入文件的MD5校验值和sha值;将所述MD5校验值和sha值的字符串叠加作为待写入文件的数字指纹。6.一种基于分布式文件系统的多层重复数据删除装置,其特征在于,包括:第一获取模块,用于获取待写入文件的数字指纹;第一判断模块,用于判断全局...
【专利技术属性】
技术研发人员:李发明,张勤,
申请(专利权)人:深圳市中博睿存科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。