一种基于Hadoop平台的分布式重复数据删除系统和方法技术方案

技术编号:12857712 阅读:148 留言:0更新日期:2016-02-12 15:06
本发明专利技术公开了一种基于Hadoop平台的分布式重复数据删除系统和方法。该系统包括客户端、主节点和工作节点,通过Hadoop平台的MapReduce并行编程框架实现分布式并行重复数据删除处理,实现方法包括客户端向主节点发送文件,主节点完成文件分片、数据分配以及构建文件元数据表,各个工作节点对数据分片按细粒度进行分块,计算细粒度数据块的指纹值,并在数据库Hbase的索引中进行查询比对,将新数据块存储在分布式文件系统HDFS中,再将索引信息反馈给主节点。该系统和方法能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。

【技术实现步骤摘要】

本专利技术涉及计算机数据存储管理领域,特别是涉及一种基于Hadoop平台的分布 式重复数据删除系统和方法。
技术介绍
随着信息技术高速发展,云计算、物联网、信息栅格以及各种社交平台等新兴技术 不断涌现,数据类型逐渐多样化,数据量急剧增长。面对持续膨胀的海量数据,存储系统容 量以及存储数据管理逐步成为富有挑战性的问题。一方面,数据中心需要增加大量的存储 设备以满足海量数据存储需求,另一方面,存储设备的增加会带来企业采购、管理、电力等 成本投入。然而,数据中心的数据存储普遍具有高冗余特点,尤其是备份存储系统和基于虚 拟机的主存储系统。如何缩减冗余数据,提升存储空间的有效利用率,进而减少企业维护管 理开销,成为目前热门研究领域。 在现有技术中,通过重复数据删除(简称重删)技术可以检测并消除内容重复的 数据,极大缩减数据存储容量,优化存储空间利用率,并可减少数据传输的网络开销,节省 网络带宽。与传统数据压缩技术相比,重复数据删除技术不仅可以消除文件内的数据冗余, 还能消除共享数据集内文件之间的数据冗余,在数据备份、容灾以及归档存储等方面应用 广泛。 当采用单服务器进行重复数据删本文档来自技高网...

【技术保护点】
一种基于Hadoop平台的分布式重复数据删除方法,包括基于Hadoop平台构建的重删集群,所述重删集群包括客户端、主节点和至少两个工作节点,其特征在于,包括如下步骤:第一步,文件分片,由所述客户端指定需要进行重复数据删除处理的文件提交给所述主节点,所述主节点将接收的所述文件分成大小均等的粗粒度数据片;第二步,数据片分配,由所述主节点通过Hadoop平台将所述粗粒度数据片分配到所述各个工作节点;第三步,数据片分块,各工作节点并行运行Map函数,对所分配的粗粒度数据片通过定长分块方法或者变长分块方法进一步划分为细粒度数据块;第四步,计算指纹值,各个工作节点对划分后的细粒度数据块根据哈希函数计算出所...

【技术特征摘要】

【专利技术属性】
技术研发人员:付印金刘青倪桂强姜劲松胡谷雨
申请(专利权)人:中国人民解放军理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1