当前位置: 首页 > 专利查询>暨南大学专利>正文

一种面向去重备份系统数据恢复的离线最优缓存替换装置及方法制造方法及图纸

技术编号:19744889 阅读:22 留言:0更新日期:2018-12-12 04:40
本发明专利技术公开了一种面向去重备份系统数据恢复的离线最优缓存替换装置及方法。由于逻辑连续的数据被物理分散在不同的磁盘位置,传统去重方法产生的碎片严重影响系统恢复的性能,目前一些优化方法尝试在恢复时利用优化缓存替换策略来改进恢复性能,然而这些方法在数据局部性不强时缓存的命中率低或在线上计算最优的替换次序时耗费的额外计算开销大,导致不能有效地抵抗碎片对恢复性能的影响,针对以上问题,本发明专利技术一方面从离线的角度去计算最优的缓存替换策略;另一方面在不牺牲系统去重率下且不需要额外的计算开销下获取最优的替换次序来有效提高恢复性能和吞吐量,离线最优缓存替换策略能够有效优化所需文件的恢复时间,符合现代化数据存储要求。

【技术实现步骤摘要】
一种面向去重备份系统数据恢复的离线最优缓存替换装置及方法
本专利技术涉及去重系统数据恢复
,具体涉及一种面向去重备份系统数据恢复的离线最优缓存替换装置及方法。
技术介绍
随着大数据时代的来临,数据量的迅猛增长给数据中心的有限存储空间带来了巨大挑战。重复数据删除技术大大降低了存储数据所需的磁盘开销和网络传输所需带宽,渐渐成为当今备份系统的一项关键数据缩减技术。去重备份系统存储数据的目的是为了以后能够及时的恢复,企业在磁盘出现故障或数据库相关文件损坏等灾难发生时如果其不能及时地恢复数据,所承受的损失将不可估量,数据备份也变得意义不大。由于逻辑连续的数据被物理分散在不同的磁盘位置,传统的去重方法产生的碎片严重影响了系统的恢复性能。之前存在的一些优化方法尝试在恢复时利用优化缓存替换策略来改进恢复性能,然而这些方法不是命中率低就是额外的计算开销大,不能有效地抵抗碎片对恢复性能的影响。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种面向去重备份系统数据恢复的离线最优缓存替换装置及方法,通过优化恢复缓存策略来抵抗碎片对恢复性能的损害,同时,在恢复指定备份数据时不需要缓存额外的计算开销,从而可以保证系统的恢复性能。根据公开的实施例,本专利技术的第一方面公开了一种面向去重备份系统数据恢复的离线最优缓存替换装置,所述的装置包括顺序连接的访问序列文件、离线最优缓存替换模块、数据恢复模块以及恢复数据存储模块,所述的装置还包括元数据存储模块,与所述的数据恢复模块连接;其中,所述的访问序列文件,依次记录了备份时每个数据块所属的容器ID号,备份系统在数据备份的同时生成访问序列文件;所述的离线最优缓存替换模块,在内存中分别维持了访问记录表、排序记录表和离线最优模拟缓存,该模块通过分析访问序列文件,来模拟数据的恢复过程,从而得到最优的缓存替换容器序列号,为后期的数据恢复模块提供缓存替换信息,其中,访问记录表是一个哈希表,其记录了未来一段时间内各个容器将要被访问的次序,排序记录表则记录了当前缓存中所涉及到的容器ID号,其是根据当前访问记录表中的信息对缓存中维持的容器ID进行访问时间的排序;所述的替换的容器,作为数据恢复时缓存需要踢出的容器;所述的元数据存储模块,用于备份系统在数据去重后存储每次备份生成的元数据文件,通过访问元数据文件,备份系统完成相应的数据恢复;所述的数据恢复模块,包括替换记录表和恢复缓存,根据预先指定的恢复命令,备份系统恢复相应的一次备份数据,并将该次备份恢复到指定的目录当中,最终的数据都按照原本的格式落盘;所述的恢复数据存储模块,用于存储恢复后的数据。进一步地,结合访问序列文件中的容器ID号,备份系统在离线情况下模拟一个最优的缓存替换过程,并且缓存中的每个容器都会分配相应的固定编号,最终通过离线最优缓存替换模块生成一个缓存替换信息文件,该文件依次记录了数据恢复过程中缓存队列在达到阀值时需要踢出的容器编号,并且通过离线分析确保这个被踢出的容器是未来最长时间内不被访问的。根据公开的实施例,本专利技术的第二方面公开了一种面向去重备份系统数据恢复的离线最优缓存替换方法,所述的方法包括下列步骤:S1、备份系统在完成数据备份后生成备份元数据和访问序列文件;S2、根据备份元数据和访问序列文件,离线最优缓存替换模块中的访问记录表和排序记录表经过线下模拟分析出最优的替换容器序列号,并将该信息记录在生成的文件中;S3、当备份系统收到恢复某一备份数据的请求,首先启动数据恢复过程,备份系统将根据元数据文件的信息开始进行数据恢复,且将替换容器序列号预读到替换容器表中;S4、当缓存发生替换时,直接结合记录替换容器表中的信息将相应的容器踢出缓存队列并进行替换;S5、最后生成恢复的备份数据到指定的目录。进一步地,所述的步骤S2中,当备份系统开始模拟数据恢复后,其会一直循环的读取之前备份生成的访问序列文件,并将获取的访问容器ID号插入到模拟缓存中,直到读取到文件结束标志后,数据恢复才完成;在缓存未满时,每次将容器ID号按照LRU的方式插入缓存队列;同时,备份系统会为当前缓存维持一个滑动的窗口,其会周期性地读取访问序列文件,得到未来一段时间被访问的容器ID号,并将这些容器ID号对应的被访问次序记录在访问记录表中,当缓存大小达到预先获取的最大值时,离线最优缓存替换模块以当前访问记录表中的容器访问次序信息为依据,对排序记录表中的容器ID进行排序,最终将访问次序号最大的容器从模拟缓存中踢出,并且这个容器ID号所对应的缓存位置被写入备份系统自动生成的日志中。进一步地,所述的步骤S3中,当备份系统进行真实的数据恢复时,为了减少访问磁盘的次数,数据恢复模块将记录替换容器的日志文件全部读到内存,将这些数据维持在一个替换记录队列当中;根据元数据文件中的信息,备份系统将磁盘中的容器预取到缓存中,当缓存未满时,按照先进先出的次序插入数据,反之,当缓存大小达到预定阀值时,OFL缓存将从替换记录队列中取出元素并找到对应的缓存地址将容器踢出。本专利技术相对于现有技术具有如下的优点及效果:(1)、本专利技术相对传统的最优缓存替换算法,避免了额外的线上计算开销,从而提高了系统的恢复性能。(2)、本专利技术相对经典的LRU缓存替换算法,提高了系统恢复缓存的命中率。(3)、本专利技术相对传统的数据恢复方法,采用了离线的缓存机制来减少系统的恢复时间。附图说明图1是本专利技术中面向去重备份系统数据恢复的离线最优缓存替换方法模型结构示意图;图2是本专利技术中离线缓存替换结构图;图3是本专利技术中恢复数据结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例如图1所示,本专利技术结构包含以下几个部分:①访问序列文件、②离线最优缓存替换模块、③替换的容器、④元数据存储模块、⑤数据恢复模块、⑥恢复数据存储模块,该系统主要由②和⑤两个模块组成。模块②在系统空闲时期通过利用最优的缓存替换策略模拟完成数据恢复,为后期真实的数据恢复过程提供可靠的恢复缓存替换策略,模块⑤主要的工作是通过利用离线最优缓存替换模块②提供的信息完成数据的恢复。访问序列文件,访问序列文件依次记录了备份时每个数据块所属的容器ID号。系统是在数据备份的同时生成访问序列文件,即生成该文件不会影响到数据恢复的性能,并且该文件为后期的离线分析提供了有效的数据备份信息。离线最优缓存替换模块,离线最优缓存替换模块在内存中分别维持了访问记录表、排序记录表和离线最优模拟缓存三个结构。该模块通过分析访问序列文件,来模拟数据的恢复过程,从而得到最优的缓存替换容器序列号,为后期的数据恢复模块提供缓存替换信息。访问记录表是一个哈希表,其记录了未来一段时间内各个容器将要被访问的次序。而排序记录表则记录了当前缓存中所涉及到的容器ID号,其是根据当前访问记录表中的信息对缓存中维持的容器ID进行排序,从而得出哪个容器很久不被访问。替换的容器,替换的容器指数据恢复时缓存需要踢出的容器。结合访问序列文件中本文档来自技高网...

【技术保护点】
1.一种面向去重备份系统数据恢复的离线最优缓存替换装置,其特征在于,所述的装置包括顺序连接的访问序列文件、离线最优缓存替换模块、数据恢复模块以及恢复数据存储模块,所述的装置还包括元数据存储模块,与所述的数据恢复模块连接;其中,所述的访问序列文件,依次记录了备份时每个数据块所属的容器ID号,备份系统在数据备份的同时生成访问序列文件;所述的离线最优缓存替换模块,在内存中分别维持了访问记录表、排序记录表和离线最优模拟缓存,该模块通过分析访问序列文件,来模拟数据的恢复过程,从而得到最优的缓存替换容器序列号,为后期的数据恢复模块提供缓存替换信息,其中,访问记录表是一个哈希表,其记录了未来一段时间内各个容器将要被访问的次序,排序记录表则记录了当前缓存中所涉及到的容器ID号,其是根据当前访问记录表中的信息对缓存中维持的容器ID进行访问时间的排序;所述的替换的容器,作为数据恢复时缓存需要踢出的容器;所述的元数据存储模块,用于备份系统在数据去重后存储每次备份生成的元数据文件,通过访问元数据文件,备份系统完成相应的数据恢复;所述的数据恢复模块,包括替换记录表和恢复缓存,根据预先指定的恢复命令,备份系统恢复相应的一次备份数据,并将该次备份恢复到指定的目录当中,最终的数据都按照原本的格式落盘;所述的恢复数据存储模块,用于存储恢复后的数据。...

【技术特征摘要】
1.一种面向去重备份系统数据恢复的离线最优缓存替换装置,其特征在于,所述的装置包括顺序连接的访问序列文件、离线最优缓存替换模块、数据恢复模块以及恢复数据存储模块,所述的装置还包括元数据存储模块,与所述的数据恢复模块连接;其中,所述的访问序列文件,依次记录了备份时每个数据块所属的容器ID号,备份系统在数据备份的同时生成访问序列文件;所述的离线最优缓存替换模块,在内存中分别维持了访问记录表、排序记录表和离线最优模拟缓存,该模块通过分析访问序列文件,来模拟数据的恢复过程,从而得到最优的缓存替换容器序列号,为后期的数据恢复模块提供缓存替换信息,其中,访问记录表是一个哈希表,其记录了未来一段时间内各个容器将要被访问的次序,排序记录表则记录了当前缓存中所涉及到的容器ID号,其是根据当前访问记录表中的信息对缓存中维持的容器ID进行访问时间的排序;所述的替换的容器,作为数据恢复时缓存需要踢出的容器;所述的元数据存储模块,用于备份系统在数据去重后存储每次备份生成的元数据文件,通过访问元数据文件,备份系统完成相应的数据恢复;所述的数据恢复模块,包括替换记录表和恢复缓存,根据预先指定的恢复命令,备份系统恢复相应的一次备份数据,并将该次备份恢复到指定的目录当中,最终的数据都按照原本的格式落盘;所述的恢复数据存储模块,用于存储恢复后的数据。2.根据权利要求1所述的一种面向去重备份系统数据恢复的离线最优缓存替换装置,其特征在于,结合访问序列文件中的容器ID号,备份系统在离线情况下模拟一个最优的缓存替换过程,并且缓存中的每个容器都会分配相应的固定编号,最终通过离线最优缓存替换模块生成一个缓存替换信息文件,该文件依次记录了数据恢复过程中缓存队列在达到阀值时需要踢出的容器编号,并且通过离线分析确保这个被踢出的容器是未来最长时间内不被访问的。3.一种面向去重备份系统数据恢复的离线最优缓存替换方法,其特征在于,所述的方法包括下列步骤:S1、备份系统在完成数据备份后...

【专利技术属性】
技术研发人员:邓玉辉杨儒
申请(专利权)人:暨南大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1