一种应用感知的大数据重复删除存储系统及方法技术方案

技术编号:13953059 阅读:94 留言:0更新日期:2016-11-02 08:39
本发明专利技术公开了一种应用感知的大数据重复删除存储系统及方法。该系统包括基于计算机网络互联的客户端、管理服务器和重删节点,客户端与管理服务器之间通过应用感知路由方法为应用文件存储确定重删节点列表,客户端与重删节点之间通过相似感知路由方法从重删节点列表中确定目标重删节点,用于存储应用文件中的超块。通过该系统对应用文件进行存储管理,能够使得具有相同类型的应用文件存放到相同的重删节点上,不仅有效减轻网络通信的负荷量,还有利于提高重删率,以及在每个重删节点上的存储吞吐率,增强网络的可扩展性。

【技术实现步骤摘要】

本专利技术涉及计算机数据存储管理领域,特别是涉及一种基于云计算环境中的应用感知的大数据重复删除存储系统及方法
技术介绍
在数字世界中,数据容量和复杂度爆炸式增长。国际数据公司IDC(International Data Corporation)研究表明:在过去的五年里,数据年增长量翻9倍达到7ZB,并且在未来的十年内,将增长44倍达到35ZB。企业的数字信息量也很容易上升到PB级甚至EB级。由于大数据时代数据量的不断增长使得管理变得越来越复杂,数据管理成本和数据丢失风险提高。随着存储系统的不断扩展,不仅需要消耗数据中心更多的数据存储空间、能耗和制冷代价,也需要增加大量的管理时间和提高操作复杂度和人为出错风险。同时,由于现代存储系统对高性能的需求,内存正在取代磁盘,而磁盘在取代磁带。为满足大数据管理所需的服务级别协议(Service Level Agreement,SLA),管理存储介质变化下的数据泛滥成了新的挑战。重复数据删除(简称重删)存储技术被广泛应用于磁盘存储系统来管理海量的备份、归档文件和虚拟机镜像等数据,利用存储数据集中高度数据冗余的特性来节省存储容量需求和提高网络带宽利用率。为满足大数据存储在容量和性能方面的可扩展需求,基于云计算环境的分布式重复数据删除存储系统被应用于海量存储数据集的管理,以获得高重删压缩比和高重删吞吐率。分布式重复数据删除存储系统通常具有将应用数据从客户端分配到多个重复数据删除服务器节点(简称重删节点)的数据路由机制,以及在每一个重删节点内进行独立重复数据删除和存储的过程。为及时删除重复数据、优化数据存储和传输开销,需要在重删存储系统设计中选择在线重删机制。针对大规模存储系统,在数据块级的在线分布式重复数据删除存储方面存在以下两大挑战:第一,重复数据删除服务器节点的信息孤岛:在分布式重复数据删除过程中,出于对系统开销的考虑,往往只对节点内部的数据进行消重,而不会去执行跨节点的重复数据删除,由此产生重复数据删除服务器节点信息孤岛。因此,一种能将数据冗余集中在节点内部,减少节点间数据重叠,维持系统通信低开销,同时支持负载均衡的数据路由机制对分布式重复数据删除至关重要。第二,数据块索引查询磁盘瓶颈:为支持重删节点内部的重复数据删除和存储,磁盘上需要保存一个数据块索引来建立从数据块指纹到数据块存储地址的映射,但数据块索引通常太大以致难以适应重复数据删除服务器节点有限的内存,再加上频繁随机地对磁盘进行访问以获取数据块的索引,造成来自客户端的多个数据流的并行重删的特性严重下降。因此,数据块索引查询磁盘瓶颈成为近年来重复数据删除系统研究的热点。另外,在传统的数据存储系统架构中包括三个层级:应用层、文件系统层和存储硬件层,每一层各自包含不同类型的有关该层所管理数据的信息,每一层的这些信息通常不会被其他层获得。因此,为了优化重删,综合考虑存储和应用进行协同设计是可取的。这样,在低级存储层就会有对高级应用层的数据结构和访问特性有深入的了解。现有技术中,对重复数据的删除没有涉及到对具体应用文件的内容和模式,并且不能找到文件中的冗余成分。为此,本专利技术将针对大规模分布式重删系统进行设计,这种系统通常包括数以千计的云环境下的存储服务器节点。若是按照现有技术中传统分布式处理方法将难以实现,这是由于这些方法没有很好地开发应用层信息和数据相似性特征,在整体重删率、单一重删节点的吞吐率、可扩展性、通信开销等方面存在不足。
技术实现思路
本专利技术主要解决的技术问题是提供一种基于应用感知的大数据重复删除存储系统及方法,解决现有技术中没有根据应用文件类型进行重删存储,系统网络的工作负载量过大、扩展性不强,以及重删节点的吞吐率不高等问题。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种基于应用感知的大数据重复删除存储系统,包括基于计算机网络互联的客户端、管理服务器和重删节点,该客户端包括数据划分模块、指纹计算模块和相似感知数据路由模块,该数据划分模块用于对应用文件按照固定长度或可变长度划分为数据块,再进一步将该数据块组合成超块;该指纹计算模块利用抗冲突加密哈希函数计算该超块中的每一个数据块的指纹,得到该超块对应的各数据块的指纹列表;该相似感知数据路由模块利用相似感知路由方法为该超块确定一个用于存储该超块的目标重删节点;该管理服务器包括文件会话管理模块和应用感知路由决策模块,该文件会话管理模块用于存储该应用文件与该应用文件划分的数据块的指纹之间的映射关系,以及需要重构该应用文件的元数据信息;该应用感知路由决策模块与该相似感知数据路由模块之间通过应用感知路由方法,为该应用文件确定一组用于存储该应用文件的超块的重删节点列表,并反馈给该客户端;该重删节点包括应用感知相似索引查询模块、块指纹缓存模块以及并行容器管理模块,该应用感知相似索引查询模块用于向该客户端反馈应用感知相似性索引查询结果,该块指纹缓存模块用于缓存最近频繁访问的数据块的指纹,以加速对数据块的查询处理,该并行容器管理模块用于以并行处理的方式存储唯一数据块。在本专利技术应用感知的大数据重复删除存储系统另一个实施例中,该抗冲突加密哈希函数包括MD5、SHA-1和/或SHA-2函数。在本专利技术应用感知的大数据重复删除存储系统另一个实施例中,该管理服务器中设置有应用路由表,该应用路由表包括应用文件类型与对应的重删节点识别号、对应的重删节点的容量之间的映射关系。在本专利技术应用感知的大数据重复删除存储系统另一个实施例中,该重删节点内存中设置有应用感知相似索引表和块指纹缓存,在磁盘阵列中设置有容器,该应用感知相似索引表由应用文件类型索引和基于应用文件类型分类的哈希表组成,该容器包含存储唯一数据块的数据段部分和存储相应唯一数据块元信息的元数据段部分,该块指纹缓存用于保存最近访问的该容器内的所有数据块指纹,以加速对该容器内的数据块指纹的查询操作。在本专利技术应用感知的大数据重复删除存储系统另一个实施例中,该基于应用文件类型分类的哈希表中的每一项均包括超块的代表性数据块指纹与存储该超块的容器识别号之间的映射关系,该块指纹缓存为Key-Value型结构,由一个双链表索引的哈希表构建而成。在本专利技术应用感知的大数据重复删除存储系统另一个实施例中,该应用感知路由方法是:第一步,在该管理服务器中,对来自该客户端的需要存储的应用文件,确定该应用文件的扩展名;第二步,在该管理服务器的该应用路由表中查询,找到该应用文件的扩展名对应的重删节点Ai,该重删节点Ai存储相同类型的应用文件;第三步,将所有存储该相同类型应用文件的重删节点组成一个重删节点列表ID_list={A1,A2,…,Am本文档来自技高网
...

【技术保护点】
一种应用感知的大数据重复删除存储系统,包括基于计算机网络互联的客户端、管理服务器和重删节点,其特征在于:所述客户端包括数据划分模块、指纹计算模块和相似感知数据路由模块,所述数据划分模块用于对应用文件按照固定长度或可变长度划分为数据块,再进一步将所述数据块组合成超块;所述指纹计算模块利用抗冲突加密哈希函数计算所述超块中的每一个数据块的指纹,得到所述超块对应的各数据块的指纹列表;所述相似感知数据路由模块利用相似感知路由方法为所述超块确定一个用于存储所述超块的目标重删节点;所述管理服务器包括文件会话管理模块和应用感知路由决策模块,所述文件会话管理模块用于存储所述应用文件与所述应用文件划分的数据块的指纹之间的映射关系,以及需要重构所述应用文件的元数据信息;所述应用感知路由决策模块与所述相似感知数据路由模块之间通过应用感知路由方法,为所述应用文件确定一组用于存储所述应用文件的超块的重删节点列表,并反馈给所述客户端;所述重删节点包括应用感知相似索引查询模块、块指纹缓存模块以及并行容器管理模块,所述应用感知相似索引查询模块用于向所述客户端反馈应用感知相似性索引查询结果,所述块指纹缓存模块用于缓存最近频繁访问的数据块的指纹,以加速对数据块的查询处理,所述并行容器管理模块用于以并行处理的方式存储唯一数据块。...

【技术特征摘要】
1.一种应用感知的大数据重复删除存储系统,包括基于计算机网络互联的客户端、管理服务器和重删节点,其特征在于:所述客户端包括数据划分模块、指纹计算模块和相似感知数据路由模块,所述数据划分模块用于对应用文件按照固定长度或可变长度划分为数据块,再进一步将所述数据块组合成超块;所述指纹计算模块利用抗冲突加密哈希函数计算所述超块中的每一个数据块的指纹,得到所述超块对应的各数据块的指纹列表;所述相似感知数据路由模块利用相似感知路由方法为所述超块确定一个用于存储所述超块的目标重删节点;所述管理服务器包括文件会话管理模块和应用感知路由决策模块,所述文件会话管理模块用于存储所述应用文件与所述应用文件划分的数据块的指纹之间的映射关系,以及需要重构所述应用文件的元数据信息;所述应用感知路由决策模块与所述相似感知数据路由模块之间通过应用感知路由方法,为所述应用文件确定一组用于存储所述应用文件的超块的重删节点列表,并反馈给所述客户端;所述重删节点包括应用感知相似索引查询模块、块指纹缓存模块以及并行容器管理模块,所述应用感知相似索引查询模块用于向所述客户端反馈应用感知相似性索引查询结果,所述块指纹缓存模块用于缓存最近频繁访问的数据块的指纹,以加速对数据块的查询处理,所述并行容器管理模块用于以并行处理的方式存储唯一数据块。2.根据权利要求1所述的应用感知的大数据重复删除存储系统,其特征在于,所述抗冲突加密哈希函数包括MD5、SHA-1和/或SHA-2函数。3.根据权利要求2所述...

【专利技术属性】
技术研发人员:付印金谢钧陈卫卫缪嘉嘉赵洪华端义锋
申请(专利权)人:中国人民解放军理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1