海量数据容灾备份方法技术

技术编号:16128577 阅读:41 留言:0更新日期:2017-09-01 20:43
本发明专利技术提供了一种海量数据容灾备份方法,该方法包括:使用SSD作为缓存挂载用户态文件系统到指定目录,当上层应用程序访问存储在分布式存储系统中的数据时,查询配置记录,查询得出文件系统调用所操作的具体簇;如果所需要的簇位于SSD中,则命中请求并返回相应的数据,如果所需要的簇不在SSD中,使用分布式存储接口远程获得相应的数据,再将数据载入到内存返回文件系统调用,之后将数据缓存到SSD中。本发明专利技术提出了一种海量数据容灾备份方法,实现了高性能、低功耗的SSD与高带宽容灾分布式存储架构的有机结合。

Mass data disaster tolerant backup method

The invention provides a data backup method, the method includes: the use of SSD as a cache to mount the user mode file system to the specified directory, when the application access to data stored in a distributed storage system, query configuration records, query specific cluster file system calls that operate if needed; cluster located in SSD, then hit the request and return the corresponding data, if the cluster is not in SSD, using a distributed storage interface of remote access to relevant data, then data is loaded into memory returns the file system calls, the data cache to SSD. The invention provides a mass data disaster recovery backup method, and realizes the organic combination of high performance and low power consumption SSD and high bandwidth disaster tolerant distributed storage architecture.

【技术实现步骤摘要】
海量数据容灾备份方法
本专利技术涉及离线存储,特别涉及一种海量数据容灾备份方法。
技术介绍
社会已经进入了一个数据爆炸式增长的时代。无处不在的传感器、移动网络、社交网络、微博、网页查询浏览记录、通话记录、消费记录无时无刻不在产生着大量数据。存储领域在大数据时代也面临着诸多挑战。这些挑战不仅仅是海量数据的存储问题,更重要的是从体系结构、系统软件等方面对上层应用高效地处理数据提供相应的支撑,以满足不同的上层应用需求。存储领域从上层软件系统到底层存储设备都正发生着改变。众所周知,SSD固态存储可兼容传统存储系统,并具有高性能、低功耗等优点,被广泛使用在IO密集型应用环境中替换传统机械硬盘。而目前正在使用的云计算平台大多是基于机械磁盘设备进行设计的,SSD由于在内部机制上与磁盘设备完全不同,这使得针对机械磁盘设计的软件系统没有充分利用SSD的特性。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种海量数据容灾备份方法,包括:使用SSD作为缓存挂载用户态文件系统到指定目录,当上层应用程序访问存储在分布式存储系统中的数据时,查询配置记录,查询得出文件系统调用所操作的具体簇;如果所需要的簇位于SSD中,则命中请求并返回相应的数据,如果所需要的簇不在SSD中,使用分布式存储接口远程获得相应的数据,再将数据载入到内存返回文件系统调用,之后将数据缓存到SSD中。优选地,所述分布式存储系统包括缓存管理模块,所述缓存管理模块用于异步的处理数据修改请求,并且对有限的SSD缓存空间进行管理。优选地,所述分布式存储系统还包括配置管理模块,用于管理用户态文件系统的配置,将配置记录存储在SSD中,每次文件系统挂载时从SSD中读出。优选地,所述分布式存储系统还包括分布式存储模块,用于将所有文件系统调用传递给用户态的缓存管理模块和配置管理模块。优选地,所述存储系统的数据以桶的形式进行组织,而每个桶数据以键进行访问,键在桶数据被写入后生成;存储的文件被切分为固定大小的簇,每个簇以桶的形式存储到分布式存储中。优选地,还包括:将文件划分为固定大小的簇,并以簇为单位进行均衡化;当检测到发生写性能下降后,通过动态选择将簇存储在性能下降节点上的数据迁移到未下降的SSD节点上,同时在数据初始部署时以簇为单位预留一部分SSD节点;当某个SSD节点上发生写入问题后,称为异常节点,动态的将簇存储在异常节点上的数据迁移到预留节点上。优选地,所述写性能下降以数据请求延迟作为指标,在记录延迟时减去网络层延迟,只记录读写层完成写请求造成的延迟;假设Li代表检测模块记录的第i个写请求的延迟,则当连续N个延迟的方差小于α时,也即:其中延迟平均值为:被记录为一次经过处理后的平台写请求延迟,如果某个读写节点前后两次记录的平台写请求延迟的比例小于一个特定的值θ,也即:则表示该SSD节点出现了写性能下降,其中α和β是与SSD相关的参数。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种海量数据容灾备份方法,实现了高性能、低功耗的SSD与高带宽容灾分布式存储架构的有机结合。附图说明图1是根据本专利技术实施例的海量数据容灾备份方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种海量数据容灾备份方法。图1是根据本专利技术实施例的海量数据容灾备份方法流程图。本专利技术将SSD的读写性能与分布式存储的优点相结合,实现基于SSD的分布式存储方案。本专利技术的分布式存储系统使用SSD作为缓存挂载用户态文件系统到指定目录,对用户态文件系统进行访问,而包括缓存替换在内的内部策略对上层应用透明。数据以桶的形式进行组织,而每个桶数据以键进行访问,键在桶数据被写入后生成。存储的文件被切分为固定大小的簇,每个簇以桶的形式存储到分布式存储中。系统根据功能分为三个模块:缓存管理模块、配置管理模块和分布式存储模块。缓存管理模块用于异步的处理数据修改请求,并且对有限的SSD缓存空间进行管理。配置管理模块用于管理用户态文件系统的配置,将配置记录存储在SSD中,每次文件系统挂载时从SSD中读出。分布式存储模块用于将所有文件系统调用传递给用户态的缓存管理模块和配置管理模块。当上层应用程序访问存储在分布式存储系统中的数据时,执行以下操作:(1)分布式存储模块将文件系统调用重定向至配置管理模块;(2)配置管理模块通过查询配置记录,查询得出文件系统调用所操作的具体簇,并进一步查询出簇所对应的分布式存储内桶的键;(3)通过该键查询缓存管理模块,如果所需要的簇位于SSD中,则命中请求并返回相应的数据,如果所需要的簇不在SSD中,使用分布式存储接口远程获得相应的数据,再将数据载入到内存返回文件系统调用,之后将数据缓存到SSD中。首先利用数据压缩算法减小簇自身的空间,其次利用簇之间的冗余性来避免了同样的簇被重复存储。在去重时,簇被分为复合簇和基本簇。复合簇封装了多个需要进一步抽取的子簇;基本簇是分散数据结构的最基本的表示。根据不同的簇类型,从簇中抽取对象,然后利用散列函数计算对象的特征值;去重具体过程如下:步骤1.将基本簇传送给簇抽取器,对于不同类型的复合簇采用不同的簇抽取算法。通过分析簇头来确定复合簇和潜在簇的编码格式。步骤2.为每个基本簇分配一个全局唯一的称为特征值,使用SHA散列函数来计算。步骤3.通过簇索引,将已存储簇的特征值进行比较,当发现当前簇的特征值和已有簇特征值相等时,则索引当前簇为已有簇的引用,更新簇索引。步骤4.存储非重复簇。在步骤3的去重过程开始前,进一步将簇分为可修改簇集和不可修改簇集,设置合适的去重粒度。设定簇抽取阈值。确定簇候选阈值的取值范围;对于原始对象集合中各种类型的簇,遍历候选去重粒度取值范围中的每个候选粒度值,对于超过候选粒度值的簇按照该值进行划分,并计算该候选去重粒度产生的数据压缩比,数据压缩比为初始簇集进行簇去重前的数据总量除以按照候选粒度值进行簇去重之后的数据总量得到的值:对于不可修改簇,将按照对象的原始大小从簇中抽取。簇结构的不同部分通过引用其他簇来去重,根据簇结构进行分段,分段的大小不低于所设定的可修改簇的平均大小。对于簇的每个段生成特征值;和系统中其他的已有特征值比较;对于识别出第2次有相同特征值的段,在索引中索引该块为新块的引用;对于没有识别相同前面的块,存储该块并在索引中索引该块为其本身的引用。为了提高系统整体读写性能,缓存管理模块在SSD中缓存存储对象。当上层应用程序需要对簇进行读写时,缓存管理模块首先将相应的簇取回内存进行数据操作,而后缓存到SSD中固定大小的缓存区中。在缓存替换中,距离LRU位置分别为L/8、L/4和L/2的位置设置三个不同状态位,用于区分读和写操作引入缓存的数据,L为LRU栈的长度。由读操作引入存储对象缓存的数据存储在LRU栈的状态位。在缓存启动阶段,在固定时间间隔内确定最终使用的状态位的位置。收集运行时各本文档来自技高网...
海量数据容灾备份方法

【技术保护点】
一种海量数据容灾备份方法,用于在基于SSD的分布式存储系统中执行数据存储,其特征在于,包括:使用SSD作为缓存挂载用户态文件系统到指定目录,当上层应用程序访问存储在分布式存储系统中的数据时,查询配置记录,查询得出文件系统调用所操作的具体簇;如果所需要的簇位于SSD中,则命中请求并返回相应的数据,如果所需要的簇不在SSD中,使用分布式存储接口远程获得相应的数据,再将数据载入到内存返回文件系统调用,之后将数据缓存到SSD中。

【技术特征摘要】
1.一种海量数据容灾备份方法,用于在基于SSD的分布式存储系统中执行数据存储,其特征在于,包括:使用SSD作为缓存挂载用户态文件系统到指定目录,当上层应用程序访问存储在分布式存储系统中的数据时,查询配置记录,查询得出文件系统调用所操作的具体簇;如果所需要的簇位于SSD中,则命中请求并返回相应的数据,如果所需要的簇不在SSD中,使用分布式存储接口远程获得相应的数据,再将数据载入到内存返回文件系统调用,之后将数据缓存到SSD中。2.根据权利要求1所述的方法,其特征在于,所述分布式存储系统包括缓存管理模块,所述缓存管理模块用于异步的处理数据修改请求,并且对有限的SSD缓存空间进行管理。3.根据权利要求1或2所述的方法,其特征在于,所述分布式存储系统还包括配置管理模块,用于管理用户态文件系统的配置,将配置记录存储在SSD中,每次文件系统挂载时从SSD中读出。4.根据权利要求3所述的方法,其特征在于,所述分布式存储系统还包括分布式存储模块,用于将所有文件系统调用传递给用户态的缓存管理模块和配置管理模块。5.根据权利要求1所述的方法,其特征在于,所述存储系统的数据以桶的形式进行组织,而每个桶数据以键进...

【专利技术属性】
技术研发人员:许荣福
申请(专利权)人:成都优孚达信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1