一种大数据同步备份及校验方法技术

技术编号:36470073 阅读:14 留言:0更新日期:2023-01-25 23:12
本发明专利技术公开了一种大数据同步备份及校验方法,可由多个跨域跨平台服务器作为源存储服务器和目标存储服务器,利用网络通过合适的文件传输协议将源存储服务器中的数据同步备份至目标存储服务器当中;然后利用计算机通过遍历算法获取两类存储服务器中所有数据的完整路径信息、特征信息以及校验编码;然后通过比对算法对比源存储服务器和目标存储服务器中数据的特征信息和校验编码,当特征信息和校验编码完全相同时,才表示数据备份成功,否则不成功。该发明专利技术设计了基于跨域跨平台存储服务器的大数据备份系统,利用多渠道备份方法和数据校验一致性方法,保证了备份数据的完整性和安全性。全性。全性。

【技术实现步骤摘要】
一种大数据同步备份及校验方法


[0001]本专利技术属于计算机信息
,具体涉及一种大数据备份及校验方法。

技术介绍

[0002]随着计算机技术的快速发展和大数据时代的到来,人们可通过对大样本数据的分析来实现生产生活上的便利性,数据已然成为了当今社会不可缺少的一部分。与此同时,考虑如何正确地存储和管理数据也是十分必要的,硬件损坏、病毒入侵等各种因素都会造成数据安全隐患。现如今各种行业的企事业单位都拥有海量的实验和测试数据,一般都会达到TB、PB级以上的数据量,因此提出一种安全高效的数据备份系统,对于存储数据、保证数据安全具有十分重要的意义。
[0003]对象存储作为目前主流的云存储技术,是一种新型的网络存储架构,它支持用户在任何时间、任何地点上传和下载数据,而且允许多个客户端同时访问存储空间,具有很好的便利性和很强的安全性。除此之外,对象存储采用虚拟化技术来解决存储空间的浪费问题,提高了存储空间的利用率,并且具有数据自动冗余、故障自动恢复的功能。目前主流的对象存储产品有阿里云OSS、华为云、Amazon Simple Storage Service等等。而传统的存储方式主要有块存储和文件存储两种方式。块存储是一种高效可靠的数据存储方式,可实现快速检索,当存储的数据越多时,就越适用块存储。文件存储的典型代表就是NAS(Network Attached Storage),NAS设备易于部署,能够即插即用,并且NAS是基于TCP/IP协议进行网络连接的,适于采用内网搭建本地存储系统。
[0004]数据完整性校验的目的主要是检测备份过程中由服务器硬件错误等因素所造成的数据是否存在损坏、丢包等问题,有利于管理者掌握备份数据的完整性信息,数据的完整性校验可通过一些数据校验算法来实现,比如:循环冗余校验(CRC)算法。CRC算法是一种经典的纠错编码方法,其在计算机和通信领域具有非常广泛的应用,具有很强的检纠错能力,与其他校验算法相比,编码规则简单且易实现。并且由于CRC校验码的位数少,不会占用太多的内存空间。
[0005]目前很多科研单位、企业公司以及高校等机构都十分重视网络及数据安全工作,因此每年会花费大量资金去购置第三方的存储服务,这就提高了存储成本,并且如果要采取多备份形式存储数据的话,成本不可估量。
[0006]因此,如果能够一种适用于大样本数据存储的多备份系统,并结合多种校验算法实现备份数据的完整性验证,这对于有存储需求的机构,安全存储数据资源、降低数据存储成本具有很高的经济价值。

技术实现思路

[0007]针对现有技术问题及社会机构安全存储的需要,本专利技术目的在于提供一种大数据同步备份及校验方法,其基于跨域跨平台的存储服务技术搭建大样本数据多备份系统,以此来拓宽数据的存储渠道,以及利用FTP、SFTP等文件传输协议实现大规模数据的备份,保
证数据备份的安全性;并利用字段匹配算法提取特征信息,数据校验编码一致性原则等方法,保证大规模数据备份的完整性。该方法有利于各行业公司及机构安全、简单、高效地管理海量数据资源。
[0008]为了实现上述专利技术目的,本专利技术所采用的技术方案是:一种大数据同步备份及校验方法,其特征在于,是采用源存储服务器和目标存储服务器,利用网络通过合适的文件传输协议将源存储服务器中的数据同步备份至目标存储服务器当中;然后利用计算机通过遍历算法获取两类存储服务器中所有数据的完整路径信息、特征信息以及校验编码;然后通过比对算法对比源存储服务器和目标存储服务器中数据的特征信息和校验编码,获取校验结果。
[0009]其中,一个源存储服务器可以同时对应多个目标存储服务器,利用网络通过合适的文件传输协议将源存储服务器中的数据同步备份至多个目标存储服务器中。
[0010]具体实施步骤为:步骤1):利用FTP或SFTP文件传输协议将数据在源存储服务器和目标存储服务器中同步备份;步骤2):遍历源存储服务器和目标存储服务器中所有数据,获取每个数据的完整路径信息,同时利用哈希算法计算获得每个数据的校验编码;步骤3):根据每个数据的完整路径信息,采用字符串匹配算法,提取数据的特征信息;步骤4):创建源存储服务器数据列表和目标存储服务器数据列表,分别用于存放源存储服务器和目标存储服务器中数据的特征信息及校验编码;步骤5):利用比对算法对比源存储服务器数据列表和目标存储服务器数据列表中的数据,分别获取备份成功、备份失败和未备份这三种校验结果。
[0011]其中,所述源存储服务器和目标存储服务器均支持跨域跨平台操作。
[0012]其中,所述数据的校验编码为CRC码或MD5码等能保证数据完整一致性的校验编码。
[0013]其中,数据的特征信息包括文件名称、唯一标识码、格式类型等能保证备份前后数据相对应的信息。
[0014]其中,所述源存储服务器数据列表和目标存储服务器数据列表,均为n行m列的列表,其中行数n为所需备份的数据数量,列数m为所提取的每一数据的特征信息种类和使用到的校验编码种类之和。
[0015]在步骤5)中,比对及校验方法如下:a)创建一个数据数量的变量i,为整数,令其初始值为1;b)从i=1开始,在目标存储服务器数据列表中遍历查找与源存储服务器数据列表中第i个数据特征信息是否有完全相同的数据,并比较它们之间的校验编码是否相同;b1)若目标存储服务器数据列表中存在与源存储服务器数据列表中特征信息完全相同的数据,且它们之间的校验编码相同,则视为该数据备份成功,则删除目标存储服务器数据列表中该数据,将变量i加1继续比对;
b2)若目标存储服务器数据列表中存在与源存储服务器数据列表中特征信息完全相同的数据,但它们之间的校验编码不相同,则视为该数据备份失败,则保留目标存储服务器数据列表中该数据,将变量i加1继续比对;b3)若目标存储服务器数据列表中不存在与源存储服务器数据列表中特征信息完全相同的数据,则视为该数据未备份,将该数据另存至其他列表中,并删除源存储服务器数据列表中该数据,将变量i加1继续比对;c)直至遍历完源存储服务器数据列表中所有数据,校验结束,将源存储服务器数据列表中存储的备份成功和备份失败的数据,减去目标存储服务器列表中备份失败的数据,即得到备份成功的数据。
[0016]本专利技术的有益效果是:本专利技术提出了基于跨域跨平台操作的存储服务器的数据备份系统,易实现,且备份数据的完整性校验方法不存在复杂计算,所以校验速度快。同时,该方法可采用内网部署存储服务器的方法,既可显著降低备份成本,亦能降低来自外网恶意攻击的可能性。依据以上特点,该数据备份及校验方法有利于后续推广应用,为掌握海量数据资源的公司或机构提供了一种安全、简单、成本低的数据管理模式,具有很高的应用价值。
附图说明
[0017]为了更清楚地说明本专利技术的实施例,下面对实施例描述中所使用的附图作简单地介绍,如下:图1是本专利技术实施例中所提供的一种大数据备份系统的架构示意图;图2是本专利技术实施例中所提供的一种数据校验方法的整体流程示意图。
具体实施方式<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据同步备份及校验方法,其特征在于,采用源存储服务器和目标存储服务器,利用网络通过合适的文件传输协议将源存储服务器中的数据同步备份至目标存储服务器当中;然后利用计算机通过遍历算法获取两类存储服务器中所有数据的完整路径信息、特征信息以及校验编码;然后通过比对算法对比源存储服务器和目标存储服务器中数据的特征信息和校验编码,获取校验结果。2.根据权利要求1所述的大数据同步备份及校验方法,其特征在于:步骤1):利用FTP或SFTP文件传输协议将数据在源存储服务器和目标存储服务器中同步备份;步骤2):遍历源存储服务器和目标存储服务器中所有数据,获取每个数据的完整路径信息,同时利用哈希算法计算获得每个数据的校验编码;步骤3):根据每个数据的完整路径信息,采用字符串匹配算法,提取数据的特征信息;步骤4):创建源存储服务器数据列表和目标存储服务器数据列表,分别用于存放源存储服务器和目标存储服务器中数据的特征信息及校验编码;步骤5):利用比对算法对比源存储服务器数据列表和目标存储服务器数据列表中的数据,分别获取备份成功、备份失败和未备份这三种校验结果。3.根据权利要求1或2所述的大数据同步备份及校验方法,其特征在于,所述源存储服务器和目标存储服务器均支持跨域跨平台操作。4.根据权利要求1或2所述的大数据同步备份及校验方法,其特征在于,所述数据的校验编码为CRC码或MD5码。5.根据权利要求1或2所述的大数据同步备份及校验方法,其特征在于,所述数据的特征信息包括文件名称、唯一标识码、格式类型。6.根据权利要求2所述的大数据同步备份及校验方法,其特征在于...

【专利技术属性】
技术研发人员:汪旗航刘应吉魏鑫磊贾红
申请(专利权)人:交通运输部公路科学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1