一种双向并发执行的文件级可变长数据分块方法技术

技术编号：4092686 阅读：292 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供的是一种信息系统中双向并发执行的文件级可变长数据分块方法。本发明专利技术的关键在于对文件进行切块的过程中，该方法能够借助多核处理器的并发处理能力，用两个线程分别从文件的首尾出发，利用数据块边界只通过对数据内容进行计算来确定，分别从前往后和从后往前并发地扫描文件，并确定数据块的边界，进而切分数据块，直到由首尾出发的两个线程在文件中部相遇为止，从而显著提高了数据分块的速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及的是一种信息系统中文件级可变长数据分块方法。
技术介绍
随着信息化系统广泛应用，大型数据中心的数据存储设备的容量由于数据信息呈指数级增长而快速趋于饱和。同时，由于以自然灾难、人为恶意灾难为代表的各种灾难性事件频发，企事业单位正面临着业务量激增和信息备份间隔缩短双重压力，管理数据成本 (包括存储成本、空间成本、功耗成本等综合)显著增加，提高数据存储效率已经成为当前数据备份研究的热点问题。研究同时发现，应用系统中的数据信息的冗余度很高，存在大量重复的文件或数据块。为此，人们提出了重复数据删除技术，以消除分布在存储系统中的冗余信息，降低信息存储成本。重复数据删除是一种数据缩减技术，旨在减少存储系统中实际使用的存储容量。其核心思想是在存储系统中只保留不同内容的数据，当数据中心进行数据添加或更新时，如果新数据和存储系统中已有数据内容相同，则不直接保存该新数据，而是在新数据位置上保存指向已有数据块的指针。由于指针占用空间远远低于数据占用空间，因此，采用重复数据删除技术可以有效地减少数据在实际存储系统中的存储容量。在应用重复数据删除技术进行数据删冗过程中，通常是以数据块作为查找相同数据的基本单位，即首先将数据切分为若干的数据块，然后将数据块和存储系统中数据块进行比较，并以此确定可以删除的冗余数据块。显然，数据切分算法的优劣将直接关系到重复数据删除技术效率。为描述方便，首先给出如下定义1、哈希值，哈希算法哈希算法将任意长度的二进制值映射为固定长度的较小二进制值，这个小的二进制值称为哈希值。2、滑动窗口即一个可滑动、覆盖固定大小...

【技术保护点】
一种信息系统中双向并发执行的文件级可变长数据分块方法，其特征在于：设待处理的文件集包含了ｍ个文件（Ｆ↓［１］，Ｆ↓［２］，．．．，Ｆ↓［ｍ］）；方法中使用的两个线程为（Ｔ↓［１］、Ｔ↓［２］）；两个滑动窗口分别为（ｗ↓［１］、ｗ↓［２］），其大小为Ｗ；对两个滑动窗口中数据计算得到指纹值分别记录为参数（ｒ↓［１］、ｒ↓［２］）；模数（判断滑动窗口是否确定了数据块边界时所用到的取模整数）为Ｅ；两个磁盘数据缓存（缓存从磁盘中读取的文件内容，加快处理速度）名分别为（ｂｕｆ↓［１］，ｂｕｆ↓［２］），其大小均为Ｎ（Ｎ＞＞Ｗ），两个滑动指针（用于判断是否已处理完整个文件的数据）分别为（ｓ↓［１］、ｓ↓［２］）；对一个文件Ｆ做数据切块时，输入待处理文件集（Ｆ↓［１］，Ｆ↓［２］，．．．，Ｆ↓［ｍ］），及各文件大小（ｆ↓［１］，ｆ↓［２］，．．．，ｆ↓［ｍ］），滑动窗口大小Ｗ，模数Ｅ，两个相对独立的缓存（ｂｕｆ↓［１］，ｂｕｆ↓［２］）大小均为Ｎ，开启两个线程Ｔ↓［１］、Ｔ↓［２］，分别从文件的首尾并发向文件的中间读取数据到各自的缓存中，并利用滑动窗口以每次一字节的速度，在数据缓存中往相应方向滑动，并...

【技术特征摘要】
一种信息系统中双向并发执行的文件级可变长数据分块方法，其特征在于设待处理的文件集包含了m个文件(F1，F2，...，Fm)；方法中使用的两个线程为(T1、T2)；两个滑动窗口分别为(w1、w2)，其大小为W；对两个滑动窗口中数据计算得到指纹值分别记录为参数(r1、r2)；模数(判断滑动窗口是否确定了数据块边界时所用到的取模整数)为E；两个磁盘数据缓存(缓存从磁盘中读取的文件内容，加快处理速度)名分别为(buf1，buf2)，其大小均为N(N＞＞W)，两个滑动指针(用于判断是否已处理完整个文件的数据)分别为(s1、s2)；对一个文件F做数据切块时，输入待处理文件集(F1，F2，...，Fm)，及各文件大小(f1，f2，...，fm)，滑动窗口大小W，模数E，两个相对独立的缓存(buf1，buf2)大小均为N，开启两个线程T1、T2，分别从文件的首尾并发向文件的中间读取数据到各自的缓存中，并利用滑动窗口以每次一字节的速度，在数据缓存中往相应方向滑动，并计算滑动窗口中数据的指纹值。当该指纹值对模数求模为0时，该窗口便确定了是一个数据块的边界。而两个相邻的数据块边界即确定了一个数据块。2.权利要求1所述的信息系统中双向并发执行的文件级可变长数据分块方法，其具体方法步骤为(1)输入待处理的文件集(F1,F2, ...，Fm)，各文件大小分别为(f1; f2，. . .，fffl)；(2)输入滑动窗口大小W，模数E，两个相对独立的缓存Oxifpbuf2)大小均为N;(3)Vi e [l,m]，若文件Fi的大小& <滑动窗口大小W，则直接将其作为一个数据块，用以查重，并将文件Fi从待处理...

【专利技术属性】
技术研发人员：姚文斌，叶鹏迪，刘建毅，王枞，伍淳华，肖达，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人