一种基于纠删技术的大文件分布式备份方法及装置制造方法及图纸

技术编号:27480810 阅读:60 留言:0更新日期:2021-03-02 17:51
本发明专利技术公开了一种基于纠删技术的大文件分布式备份方法及装置,方法包括:备份代理服务器根据接收客户端的大文件备份请求信息,将大文件数据逐步缓存至内存中;备份代理服务将预读进内存中的大文件数据以每个MB的固定块大小进行提取,得到n个源数据块;设置纠删码的冗余级别为n+m,基于n个源数据块冗余计算出m个校验数据块;生成拆解到数据块的元数据信息;备份代理服务将数据块异步、并行的分发至n+m个备份服务器,进行分布式备份存储;备份代理服务对已备份大文件的备份数据块进行监控。本发明专利技术提升大文件备份速度,校验数据块还能以最小的冗余量给备份数据提供二次保护,节省备份存储空间的同时保证了备份数据的可靠性。份存储空间的同时保证了备份数据的可靠性。份存储空间的同时保证了备份数据的可靠性。

【技术实现步骤摘要】
一种基于纠删技术的大文件分布式备份方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种基于纠删技术的大文件分布式备份方法及装置。

技术介绍

[0002]文件备份是指为防止系统出现操作失误或系统故障导致文件丢失,而将全部或部分文件集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。
[0003]对于文件备份,较为主流的备份系统基本是单点备份,即将备份目标文件通过网络传输到指定的某种存储介质中去,备份过程一般通过一台备份服务器完成,备份的介质也一般为单一的磁盘,或挂载在备份服务器上的单一存储逻辑卷,备份速度受备份服务器性能及备份介质的优劣影响较大。特别是针对大文件,其备份方式一般为串行读取后进行备份写入,这种方式导致对单一大文件备份时间过于漫长。
[0004]此外,备份模式确实会对备份后的数据进行二次保护,但因备份数据损坏而造成备份无法恢复的情况时有发生。在生产提出明确需要的情况下一般也只是机械的再多存一份备份数据,对存储容量造成了非常大的压力。
[0005]综上所述,传统备份的方式性能存在一定的瓶颈,特别是对大文件备份表现越专利技术显,另外缺少对备份数据二次保护的高效低耗的手段。

技术实现思路

[0006]有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是提供一种基于纠删技术的大文件分布式备份方法及装置,将大文件分解成n个源数据块,结合纠删码技术基于n个源数据块冗余计算获得m个校验数据块,再对源数据块和校验数据块进行分布式备份存储从而实现大文件备份。本方法与传统的大文件备份方法相比,数据备份速率和安全性能得到了大幅度提升,以最小化冗余存储开销为备份数据提供二次保护,适用于大规模备份存储的应用场景。
[0007]为实现上述目的,本专利技术提供了一种基于纠删技术的大文件分布式备份方法,包括以下步骤:S1:备份代理服务器根据接收客户端的大文件备份请求信息,对需要备份的大文件进行预读,将大文件数据逐步缓存至内存中;S2:备份代理服务将预读进内存中的大文件数据以每个MB的固定块大小进行提取,得到n个源数据块,其中t为提取的文件块大小,t为正整数;S3:设置纠删码的冗余级别为n+m,基于n个源数据块冗余计算出m个校验数据块;S4:生成步骤S2拆解到的n个源数据块和步骤S3计算得到的m个校验数据块的元数据信息;将n+m个子数据块的元数据信息写入RocksDB;S5:备份代理服务将步骤S2拆解到的n个源数据块和步骤S3计算得到的m个校验数据块异步、并行的分发至n+m个备份服务器,进行分布式备份存储;
S6:当所述n个源数据块和m个校验数据块成功备份存储至备份服务器后,备份服务器向备份代理服务发送备份成功的通知;当备份代理服务接收到n+m个备份服务器的备份成功通知后,表示所述n个源数据块和m个校验数据块已成功进行备份存储;S7:备份代理服务对已备份大文件的备份数据块进行监控,当无法读取的备份数据块数量达到m个时,立即触发对大文件进行重新备份的操作。
[0008]优选的,所述步骤S3具体为:S3-1:将步骤S2提按列排列成向量D:S3-2:假设校验块的数量为m,则构造一个维度的分布矩阵B,对矩阵B需要满足:任意n行向量都是相互独立的,即任意n行向量组成的矩阵可逆,故以维的单位矩阵I作为分布矩阵B的前n行,再从范德蒙矩阵V中取m行作为分布矩阵B的后m行,从而构成完整的分布矩阵B,其中范德蒙矩阵V行数为k,列数为n,其第i行、第j列表示为,两两互异;矩阵I、V、B的表达式分别如下:两两互异;矩阵I、V、B的表达式分别如下:
S3-3:将所述分布矩阵B与向量D相乘:从乘积结果向量中即可分解得到m个校验块;S3-4:从n个源数据块和m个校验块中任选n个数据块,按列排列成向量,从矩阵B中将所选n个数据块对应的行向量挑出来,组成新矩阵,即存在等式;因为从矩阵B任意n行组成的矩阵都可逆,所以矩阵存在逆矩阵,记为,显然有;在等式两边同时左乘矩阵,得到,即。
[0009]优选的,所述步骤S4的元数据信息包括但不限于身份标识号、生成的时间节点、大小、类型、所属原大文件信息。
[0010]优选的,所述步骤S6中所述n个源数据块和m个校验数据块成功进行备份存储后,备份代理服务删除预读缓存至内存的文件数据。
[0011]优选的,所述步骤S6中所述n个源数据块和m个校验数据块成功进行备份存储后,更新数据块对应的元数据,包括但不限于增加数据块备份存储位置信息以及备份时间的字段信息。
[0012]本专利技术还提供一种基于纠删技术的大文件分布式备份装置,包括:大文件备份请求信息接收模块,大文件预读模块,源数据块提取模块,校验数据块计算模块,元数据生成模块,数据块分布式备份存储模块,备份文件监控模块,其中:
大文件备份请求信息接收模块,用于备份代理服务接收客户端的大文件备份请求信息;大文件预读模块,用于备份代理服务器根据接收到的文件备份请求信息,对需要备份的大文件数据进行预读,逐步缓存至内存中;源数据块提取模块,用于以每个MB的固定块大小从内存中提取预读好的大文件数据,得到n个源数据块,其中t为正整数;校验数据块计算模块,用于结合纠删码技术基于n个源数据块冗余计算获得m个校验块;元数据生成模块,用于生成n个源数据块和m个校验数据块的元数据信息并写入RocksDB;数据块分布式备份存储模块,用于备份代理服务将提取的n个源数据块和计算得到的m个校验数据块异步、并行的分发至n+m个备份服务器,进行分布式备份存储;备份文件监控模块,用于在大文件对应所有源数据块、校验数据块均分布式备份存储至备份服务器后,对备份数据块进行监控,当不可正常读取的数据块数量达到m个时,立即触发对大文件进行重新备份的操作。
[0013]优选的,还包括缓存数据删除模块,用于在大文件对应n个源数据块和m个校验数据块均分布式备份存储至备份服务器后,备份代理服务删除内存中的缓存文件数据。
[0014]优选的,还包括元数据更新模块,用于在大文件对应n个源数据块和m个校验数据块均分布式备份存储至备份服务器后,备份代理服务更新数据块对应的元数据,包括但不限于增加数据块备份存储位置以及备份时间的字段信息。
[0015]优选的,所述元数据生成模块生成的元数据信息包括但不限于身份标识号、生成的时间节点、大小、类型、所属原大文件信息。
[0016]本专利技术的有益效果是:本专利技术通过将原大文件按固定大小提取成数个数据块,并结合纠删技术计算得到校验数据块,将源数据块和校验数据块异步、并行的分发至备份服务器,进行分布式备份存储,提升大文件备份速度;此外,校验数据块还能以最小的冗余量给备份数据提供二次保护,节省备份存储空间的同时保证了备份数据的可靠性。
[0017]以下将结合附图对本专利技术的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本专利技术的目的、特征和效果。
[0018]附图说明
[0019]图1是本专利技术一种基于纠删技术的大文件分布式备份方法的详细流程示意图;图2是本专利技术一种基于纠删技术的大文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于纠删技术的大文件分布式备份方法,其特征在于,包括以下步骤:S1:备份代理服务器根据接收客户端的大文件备份请求信息,对需要备份的大文件进行预读,将大文件数据逐步缓存至内存中;S2:备份代理服务将预读进内存中的大文件数据以每个MB的固定块大小进行提取,得到n个源数据块,其中t为提取的文件块大小,t为正整数;S3:设置纠删码的冗余级别为n+m,基于n个源数据块冗余计算出m个校验数据块;S4:生成步骤S2拆解到的n个源数据块和步骤S3计算得到的m个校验数据块的元数据信息;将n+m个子数据块的元数据信息写入RocksDB;S5:备份代理服务将步骤S2拆解到的n个源数据块和步骤S3计算得到的m个校验数据块异步、并行的分发至n+m个备份服务器,进行分布式备份存储;S6:当所述n个源数据块和m个校验数据块成功备份存储至备份服务器后,备份服务器向备份代理服务发送备份成功的通知;当备份代理服务接收到n+m个备份服务器的备份成功通知后,表示所述n个源数据块和m个校验数据块已成功进行备份存储;S7:备份代理服务对已备份大文件的备份数据块进行监控,当无法读取的备份数据块数量达到m个时,立即触发对大文件进行重新备份的操作。2.如权利要求1所述的一种基于纠删技术的大文件分布式备份方法,其特征在于,所述步骤S3具体为:S3-1:将步骤S2提取出的n个源数据块按列排列成向量D:S3-2:假设校验块的数量为m,则构造一个维度的分布矩阵B,对矩阵B需要满足:任意n行向量都是相互独立的,即任意n行向量组成的矩阵可逆,故以维的单位矩阵I作为分布矩阵B的前n行,再从范德蒙矩阵V中取m行作为分布矩阵B的后m行,从而构成完整的分布矩阵B,其中范德蒙矩阵V行数为k,列数为n,其第i行、第j列表示为,两两互异;矩阵I、V、B的表达式分别如下:
S3-3:将所述分布矩阵B与向量D相乘:从乘积结果向量中即可分解得到m个校验块;S3-4:从n个源数据块和m个校验块中任选n个数据块,按列排列成向量,从矩阵B中将所选n个数据块对应的行向量挑出来,组成新矩阵,即存在等式;因为从矩阵B任意n行组成的矩阵都可逆,所以矩阵存在逆矩阵,记为,显然有;在等式两边同时左乘矩阵,得到,即。3.如权利要求1所述的一种基于纠删技术的大文件分布式备份方法,其特征在于,所述步骤S4的元数据信息包括但不限于身份标识号、生成的时间节点、大小、类型、所属原大文件信息。4.如权利要求1所述的一种基于...

【专利技术属性】
技术研发人员:杨鹏杨波周宇
申请(专利权)人:南京群顶科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1