云存储系统的快速数据校验方法、装置及系统制造方法及图纸

技术编号:32562841 阅读:19 留言:0更新日期:2022-03-09 16:47
本发明专利技术公开了一种云存储系统的快速数据校验方法、装置及系统。其中,该方法包括:所述方法在云存储系统中执行,并且所述方法包括:接收抽样校验指令;从所述抽样校验指令中提取校验目标文件所需的数据文件,基于所提取的数据文件,获取需要抽样的数据集,形成需要校验的数据集的元数据,并分析所述需要校验的数据集的元数据;根据对所述元数据的分析结果和所述目标文件的数据块的服务节点数量,将数据校验过程分割成多个校验子任务;并行执行所述多个校验子任务,以校验数据。本发明专利技术解决了由于从分布式文件系统客户端读取文件时,数据需要经历比传统文件系统更长的路径而造成的校验速度较慢、错误风险较高的技术问题。错误风险较高的技术问题。错误风险较高的技术问题。

【技术实现步骤摘要】
云存储系统的快速数据校验方法、装置及系统


[0001]本专利技术涉及云存储领域,具体而言,涉及一种云存储系统的快速数据校验方法、装置及系统。

技术介绍

[0002]计算机系统在进行数据的传输和存储时,难免会发生错误。为了避免这种错误,一方面是从硬件的方面着手,提高硬件的抗干扰能力和可靠性;而另一方面在数据编码上采取编码纠码的措施,使得机器能够自己发现错误甚至纠正错误,通常把这种具有检测错误或带有自动纠错能力的数据编码称为数据校验码。其原理是在数据中加入一些校验位,组成数据校验码,通过检查数据校验码的合法性来判断是否出错或进行纠错。常用的数据校验码有奇偶校验码、海明校验码、循环冗余校验码(CRC)等。
[0003]对文件进行校验,主要是依据校验码计算方法(如CRC、MD5、Hash值),对读取到的文件内容计算实际校验码,并与已记录的原始校验码进行比对,从而确定文件数据正确性和一致性,即全量校验。在当前大数据发展的趋势下,文件的规模不断增大,由于这些方法均需对文件数据的全部内容进行变换处理,得到相应的校验值,在文件数据大到一定规模时,计算全体内容的校验码会比较耗时,校验处理性能会受到很大影响。
[0004]在大规模数据中心等的备份系统中,全量校验基本不可行,为了加速校验过程,一般采取抽样校验的方式进行处理,无需对所有数据进行校验。基本的处理方式如图1所示。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种云存储系统的快速数据校验方法、装置及系统,以至少解决由于从分布式文件系统客户端读取文件时,数据需要经历比传统文件系统更长的路径而造成的校验速度较慢、错误风险较高的技术问题。
[0007]根据本专利技术实施例的一个方面,提供了一种云存储系统的快速数据校验方法,所述方法在云存储系统中执行,并且所述方法包括:接收抽样校验指令;从所述抽样校验指令中提取校验目标文件所需的数据文件,基于所提取的数据文件,获取需要抽样的数据集,形成需要校验的数据集的元数据,并分析所述需要校验的数据集的元数据;根据对所述元数据的分析结果和所述目标文件的数据块的服务节点数量,将数据校验过程分割成多个校验子任务;并行执行所述多个校验子任务,以校验数据。
[0008]根据本专利技术实施例的另一方面,还提供了一种云存储系统的快速数据校验装置,包括:接收模块,被配置为接收抽样校验指令;预处理模块,被配置为从所述抽样校验指令中提取校验目标文件所需的数据文件,基于所提取的数据文件,获取需要抽样的数据集,形成需要校验的数据集的元数据,并分析所述需要校验的数据集的元数据;分发调度模块,被配置为根据对所述元数据的分析结果和所述目标文件的数据块的服务节点数量,将数据校验过程分割成多个校验子任务;执行模块,被配置为并行执行所述多个校验子任务,以校验
数据。
[0009]根据本专利技术实施例的又一方面,还提供了一种云存储系统的快速数据校验系统,备份系统节点,被配置为接收用户发起的抽样校验指令;云存储系统,包括文件服务节点,被配置为接收抽样校验指令;元数据服务集群,被配置为:从所述抽样校验指令中提取校验目标文件所需的数据文件,基于所提取的数据文件,获取需要抽样的数据集,形成需要校验的数据集的元数据,并分析所述需要校验的数据集的元数据;根据对所述元数据的分析结果和所述目标文件的数据块的服务节点数量,将数据校验过程分割成多个校验子任务;多个数据块存储节点,被配置为并行执行所述多个校验子任务,以校验数据。
[0010]在本专利技术实施例中,采用以下方案:从所述抽样校验指令中提取校验目标文件所需的数据文件,基于所提取的数据文件,获取需要抽样的数据集,形成需要校验的数据集的元数据,并分析所述需要校验的数据集的元数据;根据对所述元数据的分析结果和所述目标文件的数据块的服务节点数量,将数据校验过程分割成多个校验子任务;并行执行所述多个校验子任务,以校验数据。从而实现了节省存储资源的技术效果,进而解决了由于从分布式文件系统客户端读取文件时,数据需要经历比传统文件系统更长的路径而造成的校验速度较慢、错误风险较高的技术问题。
附图说明
[0011]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0012]图1是根据现有技术的数据校验方法的流程图;
[0013]图2是根据现有技术的数据校验时数据经历的路径的示意图;
[0014]图3是根据本专利技术实施例的一种云存储系统的快速数据校验方法的示意图;
[0015]图4是根据本专利技术实施例的另一种云存储系统的快速数据校验方法的示意图;
[0016]图5是根据本专利技术实施例的又一种云存储系统的快速数据校验方法的示意图;
[0017]图6是根据本专利技术实施例的再一种云存储系统的快速数据校验方法的示意图;
[0018]图7是根据本专利技术实施例的对元数据进行重删处理的示意图;
[0019]图8是根据本专利技术实施例的一种云存储系统的快速数据校验装置的结构示意图;
[0020]图9是根据本专利技术实施例的一种云存储系统的快速数据校验系统的结构示意图。
具体实施方式
[0021]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0022]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆
盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0023]术语解释
[0024]全量校验:备份应用对数据源进行备份时,同时按照相同的数据大小(例如1MB)计算数据的校验码(例如CRC),并且保存下来,用于后续保证数据的可靠性。全量校验是指,当对某一个备份下来的数据副本进行正确性检验时,读取该文件的全部数据重新计算校验码;并将计算得到的校验码与备份保存下来的校验码一一进行比对;如果每一次比对结果都相同,则认为数据副本没有发生改变。
[0025]抽样校验:广义指从一批产品中随机抽取少量产品(样本)进行检验,据以判断该批产品是否合格的统计方法和理论。这里指针对某一个备份的数据副本,通过随机算法计算出该数据副本需要进行检验本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种云存储系统的快速数据校验方法,其特征在于,所述方法在云存储系统中执行,并且所述方法包括:接收抽样校验指令;从所述抽样校验指令中提取校验目标文件所需的数据文件,基于所提取的数据文件,获取需要抽样的数据集,形成需要校验的数据集的元数据,并分析所述需要校验的数据集的元数据;根据对所述元数据的分析结果和所述目标文件的数据块的服务节点数量,将数据校验过程分割成多个校验子任务;并行执行所述多个校验子任务,以校验数据。2.根据权利要求1所述的方法,其特征在于,所提取的数据文件包括:所述目标文件,与所述目标文件相应的校验码文件,抽样校验比例,其中,所述校验码文件包括校验算法,校验码长度,校验码数组长度,校验码数组和校验码。3.根据权利要求2所述的方法,其特征在于,基于所提取的数据文件,获取需要校验的数据集包括:基于所提取的数据文件,调用抽样规则,获取需要校验的数据集,其中,所述抽样规则采用随机抽样算法,以指定的比例进行抽样。4.根据权利要求3所述的方法,其特征在于,基于所提取的数据文件,调用抽样规则,获取需要校验的数据集包括:将所述目标文件按照预设的逻辑数据块大小进行平均分割,得到多个逻辑数据块;基于所述抽样校验比例,对所述多个逻辑数据块进行抽样,得到需要校验的数据集。5.根据权利要求1所述的方法,其特征在于,分析所述需要校验的数据集的元数据包括:对所述元数据进行分析和处理,删除所述元数据中的重复数据。6.根据权利要求5所述的方法,其特征在于,删除所述元数据中的重复数据包括:将所述元数据中引用到的相同数据块的条目重排到一起;删除所述相同数据块中的重复数据。7.根据权利要求1所述的方法,其特征在于,并行执行所述多个校验子任务包括:基于预定的分发策略,将所述多个校验子任务分发给多个分布式存储节点;由所述多个分布式存储节点分别执行所述多个校验子任务;其中,所述预定的分发策略是各个分布式存储节点先负责存储在本存储节点的数...

【专利技术属性】
技术研发人员:陈元强蔡涛吴健辉
申请(专利权)人:深圳市木浪云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1