当前位置: 首页 > 专利查询>暨南大学专利>正文

一种在线重复数据删除系统的数据重建优化方法技术方案

技术编号:10279509 阅读:137 留言:0更新日期:2014-08-02 21:11
本发明专利技术提出一种在线重复数据删除系统的数据重建优化方法,一方面针对数据的存储,通过冗余检测、削减重复的数据,利用有限的空间资源存储和管理更多的数据;另一方面,本发明专利技术的系统模型通过调度和重排去重后的数据块的分布,将常用的文件数据块预取到去重包中数据片段的前端,将随机离散分布的数据块和相应的指纹数据聚合在去重包中存储,以减少文件数据恢复过程中磁盘上的寻道时间,从而提高在线重复数据删除系统的数据重建性能,提高系统响应时间和数据恢复效率。

【技术实现步骤摘要】
一种在线重复数据删除系统的数据重建优化方法
本专利技术涉及了一种在线重复数据删除系统的数据重建优化方法,更具体的说涉及了基于文件的访问频度进行去重包中数据块重排的技术和去重包中数据块的寻址、恢复与重构的技术。
技术介绍
随着网络和各种平台系统的不断发展,现代社会成为了数据的海洋。每天沟通人们生活的各种身份信息、网站交互产生的浏览信息、各种电子商务的订单数据、学习研究和办公的文档数据等等,每个电脑用户既是数据的生产者,也是数据的消费者。信息处理系统每天需要面对和处理庞大的数据源。在海量数据的面前,如何有效存储和管理,挖掘数据中有用的信息成为了现代化智能技术的热点。数据的有效存储归根结底就是利用同样的空间资源存储更多的数据量。其中涉及的操作可以很多,但作用于数据本身的方法就是数据压缩和冗余数据删除。针对数据本身的去重和压缩技术是最直接,也是目前运用最广的研究领域。重复数据删除技术在工业界和学术界有着多年的应用和研究基础。从该技术的发展来看,模型框架不变的都是进行数据的比对,消除重复的数据片段,建立元数据维护,其中去重率和时间效率是该技术关注的重点。从初始文件到去重后数据的生成,再到数据还原为初始文件,关注的重点不同,重复数据删除技术在其本身存储运用层面以外,得到不同程度的扩充。纵观数据压缩和数据去重,无论哪种处理手段,需要进行数据的处理、信息的挖掘离不开的都是将存储处理后的文件数据进行恢复。除此之外,存储系统只是用于大数据的保存,客户端需要请求访问,或者系统服务器需要进行数据验证和比较时,都要将系统的文件数据从存储介质中恢复出来。这样一来,文件恢复成为了数据处理的另一关键技术点。有效的文件恢复技术能快速地响应系统的请求,提高系统计算和处理大数据的能力。
技术实现思路
本专利技术的目的是实现一种在线重复数据删除系统的数据重建优化方法,处理的对象是经过重复数据删除之后的数据包,去重后的数据在去重包中的分布直接影响系统响应客户端的应答时间,通过优化存储结构,系统可以更实时地反馈用户的访问请求。本专利技术的目的通过以下的技术方案实现:一种在线重复数据删除系统的数据重建优化方法,包括下述步骤:(1)、在线重复数据删除系统对初始文件进行数据去重之后,生成去重包,去重系统响应用户对基于文件级别的数据的访问请求,通过文件恢复实现用户的存储访问,在线重复数据删除系统会在一段预设定长度的时间内统计去重包中各个文件的访问次数,将访问频度高于一定值的文件归类为常用文件集,访问频度低于该临界值的文件归为非常用文件集,然后执行步骤(2)操作;(2)、暂停重复数据删除系统的数据访问请求,进行基于文件级别的数据块重排,常用文件过滤器根据步骤(1)得到的常用文件集对去重包中的文件实体进行分流处理;处理过程是:按照去重包中初始文件的排列顺序,逐个读取去重包中的文件实体,比较文件实体记录对应文件的元数据信息段的文件名和文件类型,如果该文件名存在于步骤(1)生成的常用文件集中,则执行步骤(3)操作;(3)、读取文件实体的唯一数据块编号区,根据数据块映射规则,找到每个对应编号的唯一数据块在去重包中的存放位置,将对应的唯一数据块写入到将要恢复的文件中,并且把文件实体中的最后一个唯一数据块也写入到要恢复的文件中,如果步骤(2)全部完成之后,则执行步骤(4),否则继续返回执行步骤(2);(4)、将常用集中的文件重新进行数据块切分和指纹计算,并生成新的逻辑数据块单元和文件描述元信息,将新生成的数据信息写入到新的去重包中,然后执行步骤(5)操作;(5)、将旧的去重包中的非常用文件集对应的唯一数据块进行基于文件级别的数据恢复,将非常用文件集中文件追加到新的去重包中,放到新的去重包中数据片段的后端,完成后删除旧的去重包;(6)、新生成的去重包中的数据分布是基于对常用文件所包含的数据块和文件元数据的预取和集中,重复数据删除系统恢复响应用户对数据访问的请求。优选的,步骤(2)中,进行基于文件重排数据块的前提步骤是找到将单个文件所包含的全部数据块,将对应的数据块作统一的调度,查找文件相应的数据块之前需要对去重包中的文件进行恢复,文件恢复是一个读取数据块和写入文件的过程,通过读取去重包中各个文件实体包含的文件元数据信息和数据块信息,恢复初始的文件数据;基于文件级别的数据块重排,不但将唯一数据块集中预取到去重包中的数据片段的前端,而且数据块指纹和逻辑数据块等相关的描述信息也一并预取到相应数据片段的前端。优选的,步骤(2)中,所述常用文件过滤器用于实现文件数据块分布管理,通过改变文件进入重复数据删除系统的顺序,实现基于常用文件集的数据块重排,文件过滤器首先将去重包中的文件按系统文件的顺序进行扫描,当扫描到的文件在常用文件集时,就直接进行文件所对应的数据块、指纹、逻辑数据和文件实体的检索,检索过程包括数据块的寻址和恢复,以及新去重包中数据区的写入,所有文件都扫描完毕之后,剩下的不在常用文件集中的文件就按原有顺序排列在去重包中常用文件集的数据片段之后。优选的,步骤(3)中,数据块在去重包中的存储格式是一个副本,多个索引,数据块的寻址单位是字节,去重包中唯一数据块的物理信息记录在对应的逻辑数据块中,每个逻辑数据块的大小相同,唯一数据块的编号从0开始,依次递增。优选的,数据块寻址包括两个映射过程,首先,根据文件实体中数据块的编号找到对应的逻辑数据块,因为每个逻辑块的大小都相同,寻址的运算过程是:数据块的编号乘以逻辑块的大小,然后就得出对应逻辑数据块的物理地址;然后,第二次寻址是根据读出的逻辑数据块中记录的唯一数据块的物理位移和块大小,找到相应的数据块,数据块的寻址和物理映射实际上是“索引—唯一数据块”的转换。优选的,文件过滤器对去重包中初始文件数据基于常用文件集筛选恢复之后,需要重新将文件包含的数据块和对应的元数据存储到去重包中,具体步骤是进行文件切分、指纹生成、建立维护数据,系统切分文件后,对数据块的处理是先计算数据块的hash值,接着进行hash比较,最后就是对去重后的数据进行存储,系统的存储管理模块对新的唯一数据块的处理过程是一个可并发执行的调度。优选的,数据恢复是针对单个文件内包含的所有唯一数据块、逻辑数据块、数据块指纹和文件元数据的统一恢复。优选的,将经过重复数据删除技术处理之后的文件所包含的数据块处理过程分为四个并行处理的线程:唯一数据块存储、逻辑数据块存储、数据块指纹存储和文件元数据存储,线程运用的编程机制是openMP。优选的,常用文件过滤器扫描去重包中的文件是按初始文件进入重复数据删除系统的时间顺序,逐个比较去重包中文件实体的文件名是否存在于常用文件集,对访问频度不同的文件分流处理。优选的,改变重复数据删除系统的去重包中的初始文件按文件进入系统的时间顺序离散分布的特征,重新将去重包中的数据内容包括唯一数据块、逻辑数据块、数据块指纹和文件元数据按文件的访问频度,以单个文件为基本单位统一集中调度到去重包中相应数据片段的前端。本专利技术与现有技术相比,具有如下优点和有益效果:(1)本专利技术基于常用文件的数据重排,以文件为处理单位,对单个文件内所包含的所有数据块和数据块相对应的数据信息进行统一调度和分配,这与用户层面的访问请求内容和方式一致。(2)本专利技术对常用文件和非常用文件的本文档来自技高网
...
一种在线重复数据删除系统的数据重建优化方法

【技术保护点】
一种在线重复数据删除系统的数据重建优化方法,其特征在于,包括下述步骤:(1)、在线重复数据删除系统对初始文件进行数据去重之后,生成去重包,去重系统响应用户对基于文件级别的数据的访问请求,通过文件恢复实现用户的存储访问,在线重复数据删除系统会在一段预设定长度的时间内统计去重包中各个文件的访问次数,将访问频度高于一定值的文件归类为常用文件集,访问频度低于该临界值的文件归为非常用文件集,然后执行步骤(2)操作;(2)、暂停重复数据删除系统的数据访问请求,进行基于文件级别的数据块重排,常用文件过滤器根据步骤(1)得到的常用文件集对去重包中的文件实体进行分流处理;处理过程是:按照去重包中初始文件的排列顺序,逐个读取去重包中的文件实体,比较文件实体记录对应文件的元数据信息段的文件名和文件类型,如果该文件名存在于步骤(1)生成的常用文件集中,则执行步骤(3)操作;(3)、读取文件实体的唯一数据块编号区,根据数据块映射规则,找到每个对应编号的唯一数据块在去重包中的存放位置,将对应的唯一数据块写入到将要恢复的文件中,并且把文件实体中的最后一个唯一数据块也写入到要恢复的文件中,如果步骤(2)全部完成之后,则执行步骤(4),否则继续返回执行步骤(2);(4)、将常用集中的文件重新进行数据块切分和指纹计算,并生成新的逻辑数据块单元和文件描述元信息,将新生成的数据信息写入到新的去重包中,然后执行步骤(5)操作;(5)、将旧的去重包中的非常用文件集对应的唯一数据块进行基于文件级别的数据恢复,将非常用文件集中文件追加到新的去重包中,放到新的去重包中数据片段的后端,完成后删除旧的去重包;(6)、新生成的去重包中的数据分布是基于对常用文件所包含的数据块和文件元数据的预取和集中,重复数据删除系统恢复响应用户对数据访问的请求。...

【技术特征摘要】
1.一种在线重复数据删除系统的数据重建优化方法,其特征在于,包括下述步骤:(1)、在线重复数据删除系统对初始文件进行数据去重之后,生成去重包,去重系统响应用户对基于文件级别的数据的访问请求,通过文件恢复实现用户的存储访问,在线重复数据删除系统会在一段预设定长度的时间内统计去重包中各个文件的访问次数,将访问频度高于设定的临界值的文件归类为常用文件集,访问频度低于该临界值的文件归为非常用文件集,然后执行步骤(2)操作;(2)、暂停重复数据删除系统的数据访问请求,进行基于文件级别的数据块重排,常用文件过滤器根据步骤(1)得到的常用文件集对去重包中的文件实体进行分流处理;处理过程是:按照去重包中初始文件的排列顺序,逐个读取去重包中的文件实体,比较文件实体记录对应文件的元数据信息段的文件名和文件类型,如果该文件名存在于步骤(1)生成的常用文件集中,则执行步骤(3)操作;(3)、读取文件实体的唯一数据块编号区,根据数据块映射规则,找到每个对应编号的唯一数据块在去重包中的存放位置,将对应的唯一数据块写入到将要恢复的文件中,并且把文件实体中的最后一个唯一数据块也写入到要恢复的文件中,如果步骤(2)全部完成之后,则执行步骤(4),否则继续返回执行步骤(2);(4)、将常用集中的文件重新进行数据块切分和指纹计算,并生成新的逻辑数据块单元和文件描述元信息,将新生成的数据信息写入到新的去重包中,然后执行步骤(5)操作;(5)、将旧的去重包中的非常用文件集对应的唯一数据块进行基于文件级别的数据恢复,将非常用文件集中文件追加到新的去重包中,放到新的去重包中数据片段的后端,完成后删除旧的去重包;(6)、新生成的去重包中的数据分布是基于对常用文件所包含的数据块和文件元数据的预取和集中,重复数据删除系统恢复响应用户对数据访问的请求。2.根据权利要求1所述的在线重复数据删除系统的数据重建优化方法,其特征在于,步骤(2)中,进行基于文件重排数据块的前提步骤是找到将单个文件所包含的全部数据块,将对应的数据块作统一的调度,查找文件相应的数据块之前需要对去重包中的文件进行恢复,文件恢复是一个读取数据块和写入文件的过程,通过读取去重包中各个文件实体包含的文件元数据信息和数据块信息,恢复初始的文件数据;基于文件级别的数据块重排,不但将唯一数据块集中预取到去重包中的数据片段的前端,而且数据块指纹和逻辑数据块相关的描述信息也一并预取到相应数据片段的前端。3.根据权利要求1所述的在线重复数据删除系统的数据重建优化方法,其特征在于,步骤(2)中,所述常用文件过滤器用于实现文件数据块分布管理,通过改变文件进入重复数据删除系统的顺序,实现基于常用文件集的数据块重排,文件过滤器首先将去重包中的文件按系统文件的顺序进行扫描,当扫描到的文件在常用文件...

【专利技术属性】
技术研发人员:邓玉辉岑大慰黄战
申请(专利权)人:暨南大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1