一种在线重复数据删除系统的数据重建优化方法技术方案

技术编号：10279509 阅读：137 留言：0更新日期：2014-08-02 21:11

本发明专利技术提出一种在线重复数据删除系统的数据重建优化方法，一方面针对数据的存储，通过冗余检测、削减重复的数据，利用有限的空间资源存储和管理更多的数据；另一方面，本发明专利技术的系统模型通过调度和重排去重后的数据块的分布，将常用的文件数据块预取到去重包中数据片段的前端，将随机离散分布的数据块和相应的指纹数据聚合在去重包中存储，以减少文件数据恢复过程中磁盘上的寻道时间，从而提高在线重复数据删除系统的数据重建性能，提高系统响应时间和数据恢复效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种在线重复数据删除系统的数据重建优化方法
本专利技术涉及了一种在线重复数据删除系统的数据重建优化方法，更具体的说涉及了基于文件的访问频度进行去重包中数据块重排的技术和去重包中数据块的寻址、恢复与重构的技术。
技术介绍
随着网络和各种平台系统的不断发展，现代社会成为了数据的海洋。每天沟通人们生活的各种身份信息、网站交互产生的浏览信息、各种电子商务的订单数据、学习研究和办公的文档数据等等，每个电脑用户既是数据的生产者，也是数据的消费者。信息处理系统每天需要面对和处理庞大的数据源。在海量数据的面前，如何有效存储和管理，挖掘数据中有用的信息成为了现代化智能技术的热点。数据的有效存储归根结底就是利用同样的空间资源存储更多的数据量。其中涉及的操作可以很多，但作用于数据本身的方法就是数据压缩和冗余数据删除。针对数据本身的去重和压缩技术是最直接，也是目前运用最广的研究领域。重复数据删除技术在工业界和学术界有着多年的应用和研究基础。从该技术的发展来看，模型框架不变的都是进行数据的比对，消除重复的数据片段，建立元数据维护，其中去重率和时间效率是该技术关注的重点。从初始文件到去重后数据的生成，再到数据还原为初始文件，关注的重点不同，重复数据删除技术在其本身存储运用层面以外，得到不同程度的扩充。纵观数据压缩和数据去重，无论哪种处理手段，需要进行数据的处理、信息的挖掘离不开的都是将存储处理后的文件数据进行恢复。除此之外，存储系统只是用于大数据的保存，客户端需要请求访问，或者系统服务器需要进行数据验证和比较时，都要将系统的文件数据从存储介质中恢复出来。这样一来，文件恢复成为了数据处...
一种在线重复数据删除系统的数据重建优化方法

【技术保护点】
一种在线重复数据删除系统的数据重建优化方法，其特征在于，包括下述步骤：(1)、在线重复数据删除系统对初始文件进行数据去重之后，生成去重包，去重系统响应用户对基于文件级别的数据的访问请求，通过文件恢复实现用户的存储访问，在线重复数据删除系统会在一段预设定长度的时间内统计去重包中各个文件的访问次数，将访问频度高于一定值的文件归类为常用文件集，访问频度低于该临界值的文件归为非常用文件集，然后执行步骤(2)操作；(2)、暂停重复数据删除系统的数据访问请求，进行基于文件级别的数据块重排，常用文件过滤器根据步骤(1)得到的常用文件集对去重包中的文件实体进行分流处理；处理过程是：按照去重包中初始文件的排列顺序，逐个读取去重包中的文件实体，比较文件实体记录对应文件的元数据信息段的文件名和文件类型，如果该文件名存在于步骤(1)生成的常用文件集中，则执行步骤(3)操作；(3)、读取文件实体的唯一数据块编号区，根据数据块映射规则，找到每个对应编号的唯一数据块在去重包中的存放位置，将对应的唯一数据块写入到将要恢复的文件中，并且把文件实体中的最后一个唯一数据块也写入到要恢复的文件中，如果步骤(2)全部完成之后，...

【技术特征摘要】
1.一种在线重复数据删除系统的数据重建优化方法，其特征在于，包括下述步骤：(1)、在线重复数据删除系统对初始文件进行数据去重之后，生成去重包，去重系统响应用户对基于文件级别的数据的访问请求，通过文件恢复实现用户的存储访问，在线重复数据删除系统会在一段预设定长度的时间内统计去重包中各个文件的访问次数，将访问频度高于设定的临界值的文件归类为常用文件集，访问频度低于该临界值的文件归为非常用文件集，然后执行步骤(2)操作；(2)、暂停重复数据删除系统的数据访问请求，进行基于文件级别的数据块重排，常用文件过滤器根据步骤(1)得到的常用文件集对去重包中的文件实体进行分流处理；处理过程是：按照去重包中初始文件的排列顺序，逐个读取去重包中的文件实体，比较文件实体记录对应文件的元数据信息段的文件名和文件类型，如果该文件名存在于步骤(1)生成的常用文件集中，则执行步骤(3)操作；(3)、读取文件实体的唯一数据块编号区，根据数据块映射规则，找到每个对应编号的唯一数据块在去重包中的存放位置，将对应的唯一数据块写入到将要恢复的文件中，并且把文件实体中的最后一个唯一数据块也写入到要恢复的文件中，如果步骤(2)全部完成之后，则执行步骤(4)，否则继续返回执行步骤(2)；(4)、将常用集中的文件重新进行数据块切分和指纹计算，并生成新的逻辑数据块单元和文件描述元信息，将新生成的数据信息写入到新的去重包中，然后执行步骤(5)操作；(5)、将旧的去重包中的非常用文件集对应的唯一数据块进行基于文件级别的数据恢复，将非常用文件集中文件追加到新的去重包中，放到新的去重包中数据片段的后端，完成后删除旧的去重包；(6)、新生成的去重包中的数据分布是基于对常用文件所包含的数据块和文件元数据的预取和集中，重复数据删除系统恢复响应用户对数据访问的请求。2.根据权利要求1所述的在线重复数据删除系统的数据重建优化方法，其特征在于，步骤(2)中，进行基于文件重排数据块的前提步骤是找到将单个文件所包含的全部数据块，将对应的数据块作统一的调度，查找文件相应的数据块之前需要对去重包中的文件进行恢复，文件恢复是一个读取数据块和写入文件的过程，通过读取去重包中各个文件实体包含的文件元数据信息和数据块信息，恢复初始的文件数据；基于文件级别的数据块重排，不但将唯一数据块集中预取到去重包中的数据片段的前端，而且数据块指纹和逻辑数据块相关的描述信息也一并预取到相应数据片段的前端。3.根据权利要求1所述的在线重复数据删除系统的数据重建优化方法，其特征在于，步骤(2)中，所述常用文件过滤器用于实现文件数据块分布管理，通过改变文件进入重复数据删除系统的顺序，实现基于常用文件集的数据块重排，文件过滤器首先将去重包中的文件按系统文件的顺序进行扫描，当扫描到的文件在常用文件...

【专利技术属性】
技术研发人员：邓玉辉，岑大慰，黄战，
申请(专利权)人：暨南大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人