一种基于K‑V存储引擎的数据去重方法及装置制造方法及图纸

技术编号：15057287 阅读：56 留言：0更新日期：2017-04-06 03:20

一种基于K‑V存储引擎的数据去重方法及装置，其中方法包括如下步骤，将文件分割成定长的数据块，对各数据块进行哈希计算，得到数据块摘要数组，将数组中摘要逐个与已存储在K‑V存储引擎中的数据块摘要进行比对，若存在相同的摘要，则不进行存储，否则以数据块摘要为Key，待存储数据块为Value存入K‑V存储引擎。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据存储领域，尤其涉及一种基于K-V存储引擎的数据去重方法及装置。
技术介绍
随着电子计算机、科学计算、互联网以及移动互联网的迅速普及，全球的数据信息量呈爆炸式的增长。人们越来越深切地感觉到，如何存储和管理这些海量数据信息已经成为一个相当棘手的问题。虽然存储设备的售价一直在不停地下降，但也远远赶不上用户需要存储和处理数据量的攀升速度。据IDC权威统计，2010年全球数据总量达到了1.2ZB，2011年全球数据总量达到了1.8ZB，2020年全球的数据总量预计将达到40ZB。然而，在这些海量数据中重复数据占据了相当大的比重。微软研究院于2011年公布了其收集的将近900个用户桌面文件系统的重复数据负载个人的文件系统中平均存在着约40％的重复数据、用户之间共享的重复数据也高达68％、数据块级去重往往比文件级去重多找到约20％的重复数据。微软研究院于2012年公布的微软桌面服务器文件系统的重复数据负载，显示了微软服务器文件系统中的重复数据更为丰富，约为15-90％。德国美因茨大学(全称：德国美因茨约翰内斯-古腾堡大学，JohannesGutenberg-universityMainz，Germany)也于2012年公布了其调查的欧洲四个高性能计算数据中心的重复数据负载，其显示重复数据在科学计算这种数据中心场合也占有约20-30％的比例。上述各大研究机构公布的数据表明，现在的大规模的存储系统中广泛地存在重复数据。因此有效地积极地消除存储系统中重复数据有着极大的意义：高效地节约有限的存储空间：消除重复数据(数据削减)极大地提高了存储系统的空间利用率，...

【技术保护点】
一种基于K‑V存储引擎的数据去重方法，其特征在于，包括如下步骤：将文件分割成定长的数据块；对各数据块进行哈希计算，得到数据块摘要数组；将数组中摘要逐个与已存储在K‑V存储引擎中的数据块摘要进行比对，若存在相同的摘要，则不进行存储，否则以数据块摘要为Key，待存储数据块为Value存入K‑V存储引擎。

【技术特征摘要】
1.一种基于K-V存储引擎的数据去重方法，其特征在于，包括如下步骤：将文件分割成定长的数据块；对各数据块进行哈希计算，得到数据块摘要数组；将数组中摘要逐个与已存储在K-V存储引擎中的数据块摘要进行比对，若存在相同的摘要，则不进行存储，否则以数据块摘要为Key，待存储数据块为Value存入K-V存储引擎。2.根据权利要求1所述的基于K-V存储引擎的数据去重方法，其特征在于，还包括步骤，将各数据块计算得到的数据块摘要数组及文件的基本属性信息作为元数据信息保存到K-V存储引擎，元数据的Key值包括自增数字、UUID或GUID。3.根据权利要求1所述的基于K-V存储引擎的数据去重方法，其特征在于，文件分割后的数据块定长为4KB-128KB。4.根据权利要求1所述的基于K-V存储引擎的数据去重方法，其特征在于，所述哈希计算包括MD5或SHA-1算法。5.一种基于K-V存储引擎的数据去重装置，其特征在于，包...

【专利技术属性】
技术研发人员：张垚，倪时龙，苏江文，
申请(专利权)人：福建亿榕信息技术有限公司，国家电网公司，国网浙江省电力公司，国网信息通信产业集团有限公司，国网信通亿力科技有限责任公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人