一种数据处理方法及数据处理设备技术

技术编号:20117158 阅读:33 留言:0更新日期:2019-01-16 11:57
本文公开了一种数据处理方法及数据处理设备,该方法包括:确定至少两个第一待校验数据块,所述至少两个第一待校验数据块分别所属的备副本数据来自不同的数据中心;将所述至少两个第一待校验数据块进行校验处理,得到第一校验数据;将所述第一校验数据存储至第一聚合数据块;其中,所述第一聚合数据块包含有第二校验数据;建立所述第一聚合数据块至所述第一校验数据的反向索引和所述第一聚合数据块至所述第二校验数据的反向索引;将所述第一聚合数据块写入存储单元,从而精简备副本数据的元数据的结构,有利于该元数据进行缓存,并能够提升数据处理效率。

A Data Processing Method and Data Processing Equipment

This paper discloses a data processing method and a data processing device, which includes: determining at least two first data blocks to be checked, the spare copy data of at least two first data blocks to be checked belongs to different data centers, checking at least two first data blocks to be checked, and obtaining the first data; Stored in the first aggregated data block, where the first aggregated data block contains the second verification data, the reverse index from the first aggregated data block to the first verification data and the reverse index from the first aggregated data block to the second verification data are established, and the first aggregated data block is written into the storage unit to streamline the metadata structure of the replica data. It is conducive to the caching of metadata and can improve the efficiency of data processing.

【技术实现步骤摘要】
一种数据处理方法及数据处理设备
本申请涉及数据处理
,尤其涉及一种数据处理方法及数据处理设备。
技术介绍
随着云存储的技术发展,为了防止数据丢失,一个数据中心会接收来自其他数据中心的备副本数据,其中,备副本数据是其他数据中心中的数据的备份。为了进一步的节省该数据中心的存储开销,该数据中心会对接收到的备副本数据进行处理后再将其进行存储。该数据中心会将来自不同数据中心的备副本数据通过切分或聚合的方式形成至少两个待校验数据块,并对形成的待校验数据块进行校验处理,以得到一个校验数据。该数据中心会对该校验数据进行存储,并删除相关的备副本数据,从而达到节省该数据中心的存储开销的目的。其中,校验数据的元数据中包括用于指向相关备副本数据的反向索引,备副本数据的元数据中也包括用于指向相关校验数据的索引。在删除备副本数据时,可以保留备副本数据的元数据,以能够在其他数据中心请求对该备副本数据进行删除、读取或恢复等处理时,根据该备副本数据的元数据查找到相关的校验数据。在上述处理方式中,若一个备副本数据的数据量大,其相关的校验数据的个数会较多,相应的,该备副本数据的元数据中用于指向其相关的校验数据的索引的个数会较多,这会导致元数据的结构庞大,不利于对元数据进行缓存,并且会影响利用该元数据对备副本数据进行删除、读取或恢复等处理时的处理效率。
技术实现思路
本申请提供了一种数据处理方法及数据处理设备,能够精简备副本数据的元数据的结构,有利于该元数据进行缓存,并能够提升数据处理效率。第一方面,本专利技术实施例提供了一种数据处理方法,该方法包括:确定至少两个第一待校验数据块,所述至少两个第一待校验数据块分别所属的备副本数据来自不同的数据中心;将所述至少两个第一待校验数据块进行校验处理,得到第一校验数据;将所述第一校验数据存储至第一聚合数据块;其中,所述第一聚合数据块包含有第二校验数据,所述第二校验数据是由至少两个第二待校验数据块校验生成的;所述至少两个第二待校验数据块分别所属的备副本数据来自不同的数据中心;建立所述第一聚合数据块至所述第一校验数据的反向索引和所述第一聚合数据块至所述第二校验数据的反向索引;将所述第一聚合数据块写入存储单元。结合第一方面,在一些可能的实现方式中,所述至少两个第一待校验数据块的大小是预定义的,或者,所述至少两个第一待校验数据块的大小是根据系统的运行情况、对所述至少两个第一校验处理的速度需求、所接收到的备副本数据中的至少一个因素确定的。结合第一方面,在一些可能的实现方式中,所述第一聚合数据块的大小是根据存储单元的存储容量、系统的运行情况、校验数据的大小中的至少一个因素确定的。结合第一方面,在一些可能的实现方式中,所述方法还包括:分别建立所述各备副本数据至所述第一聚合数据块的索引,并删除所述各备副本数据。结合第一方面,在一些可能的实现方式中,所述方法还包括:当需要删除与第二聚合数据块相关的第一备副本数据时,读取与所述第一备副本数据共同参与校验处理的第二备副本数据;将所述第二备副本数据写入所述存储单元;删除所述第一备副本数据至所述第二聚合数据块的索引和所述第二备副本数据至所述第二聚合数据块的索引,以及删除所述第二聚合数据块至所述第一备副本数据的反向索引和所述第二聚合数据块至所述第二备副本数据的反向索引。结合第一方面,在一些可能的实现方式中,所述将所述第二备副本数据写入所述存储单元包括:将所述第二备副本数据按照新写或者覆盖写的方式写入所述存储单元;所述方法还包括:如果将所述第二备副本数据按照所述新写的方式写入所述存储单元,将所述第二聚合数据块中第三校验数据设置为无效数据,所述第三校验数据是由所述第一备副本数据和所述第二备副本数据共同参与校验处理而生成的。结合第一方面,在一些可能的实现方式中,所述方法还包括:判断所述第二聚合数据块中的无效数据的占比是否超过预设阈值;当确定出所述无效数据的占比超过预设阈值时,恢复出所述第二聚合数据块中与有效数据相关的备副本数据,并删除所述第二聚合数据块。结合第一方面,在一些可能的实现方式中,所述方法还包括:当需要恢复与所述第一聚合数据块相关的第三备副本数据时,读取与所述第三备副本数据共同参与校验处理的第四备副本数据;从所述第三备副本数据中读取第四校验数据,所述第四校验数据是由所述第三备副本数据和所述第四备副本数据共同参与校验处理而生成的;根据所述第四备副本数据以及所述第四校验数据,恢复出所述第三备副本数据。结合第一方面,在一些可能的实现方式中,所述方法还包括:删除所述第三备副本数据至所述第一聚合数据块的索引和所述第四备副本数据至所述第一聚合数据块的索引,以及删除所述第一聚合数据块至所述第三备副本数据的反向索引和所述第一聚合数据块至所述第四备副本数据的反向索引。第二方面,本专利技术实施例提供了一种数据处理设备,该数据处理设备用于实现上述方法,所述数据处理设备可以通过硬件实现实现上述方法,也可以通过硬件执行相应的软件实现实现上述方法。所述硬件或软件包括一个或多个功能单元。本专利技术实施例中,数据处理设备可以包括输入单元、处理单元和输出单元。数据处理设备所包括的上述功能单元能够实现第一方面中任意一个方法的部分或全部步骤。第三方面,本专利技术实施例提供了一种数据处理设备,包括处理器和存储器,以及存储在所述存储器上可供所述处理器调用并执行的计算机程序,其特征在于,所述处理器调用所述计算机程序以执行第一方面中任意一个方法的部分或全部步骤。第四方面,本专利技术实施例提供了一种存储计算机指令的可读非易失性存储介质,所述计算机指令被数据处理设备执行以实现第一方面中任意一个方法的部分或全部步骤。第五方面,本专利技术实施例提供了一种计算机程序产品,存储于存储介质中,所述计算机程序产品包括用于执行第一方面中任意一个方法的部分或全部步骤。本专利技术实施例中,通过确定至少两个第一待校验数据块,并将至少两个第一待校验数据块进行校验处理,得到第一校验数据。将第一校验数据存储至第一聚合数据块,其中,第一聚合数据块还包括第二校验数据。该第一聚合数据块的元数据包括第一聚合数据块中包括的全部校验数据各自对应的反向索引。通过上述方式,能够减少聚合数据块对应的备副本数据的元数据中的索引的个数,因此能够降低备副本数据的元数据的大小,进而有利于对被副本数据的元数据进行缓存,并能够提升数据处理的效率。进一步地,若确定的待校验数据块的大小相对较小,能够提升校验处理的效率,即能够快速完成校验处理。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对本专利技术实施例中所需要使用的附图进行说明。图1是本专利技术实施例涉及的一种存储系统的架构示意图;图2是本专利技术实施例涉及的另一种存储系统的架构示意图;图3是一种数据中心备份冗余交互的过程示意图;图4是一种处理备副本数据的过程示意图;图5是另一种处理备副本数据的过程示意图;图6是本专利技术实施例公开的一种数据处理方法的流程示意图;图7是本专利技术实施例公开的一种对聚合数据块进行处理的过程示意图;图8是本专利技术实施例公开的另一种数据处理方法的流程示意图;图9A和图9B是本专利技术实施例公开的一些删除备副本数据的过程示意图;图10是本专利技术实施例公开的又一种数据处理方法的流程示意图;图11A和图11B是本专利技术实施例公开的一些恢复备本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:确定至少两个第一待校验数据块,所述至少两个第一待校验数据块分别所属的备副本数据来自不同的数据中心;将所述至少两个第一待校验数据块进行校验处理,得到第一校验数据;将所述第一校验数据存储至第一聚合数据块;其中,所述第一聚合数据块包含有第二校验数据,所述第二校验数据是由至少两个第二待校验数据块校验生成的;所述至少两个第二待校验数据块分别所属的备副本数据来自不同的数据中心;建立所述第一聚合数据块至所述第一校验数据的反向索引和所述第一聚合数据块至所述第二校验数据的反向索引;将所述第一聚合数据块写入存储单元。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:确定至少两个第一待校验数据块,所述至少两个第一待校验数据块分别所属的备副本数据来自不同的数据中心;将所述至少两个第一待校验数据块进行校验处理,得到第一校验数据;将所述第一校验数据存储至第一聚合数据块;其中,所述第一聚合数据块包含有第二校验数据,所述第二校验数据是由至少两个第二待校验数据块校验生成的;所述至少两个第二待校验数据块分别所属的备副本数据来自不同的数据中心;建立所述第一聚合数据块至所述第一校验数据的反向索引和所述第一聚合数据块至所述第二校验数据的反向索引;将所述第一聚合数据块写入存储单元。2.如权利要求1所述方法,其特征在于,所述方法还包括:分别建立所述至少两个第一待校验数据块分别所属的备副本数据至所述第一聚合数据块的索引以及所述至少两个第二待校验数据块分别所属的备副本数据至所述第一聚合数据块的索引,并删除所述至少两个第一待校验数据块分别所属的备副本数据以及所述至少两个第二待校验数据块分别所属的备副本数据。3.如权利要求1或2所述方法,其特征在于,所述方法还包括:当需要删除与第二聚合数据块相关的第一备副本数据时,读取与所述第一备副本数据共同参与校验处理的第二备副本数据;将所述第二备副本数据写入所述存储单元;删除所述第一备副本数据至所述第二聚合数据块的索引和所述第二备副本数据至所述第二聚合数据块的索引,以及删除所述第二聚合数据块至所述第一备副本数据的反向索引和所述第二聚合数据块至所述第二备副本数据的反向索引。4.如权利要求3所述方法,其特征在于,所述将所述第二备副本数据写入所述存储单元包括:将所述第二备副本数据按照新写或者覆盖写的方式写入所述存储单元;所述方法还包括:如果将所述第二备副本数据按照所述新写的方式写入所述存储单元,将所述第二聚合数据块中第三校验数据设置为无效数据,所述第三校验数据是由所述第一备副本数据和所述第二备副本数据共同参与校验处理而生成的。5.如权利要求4所述方法,其特征在于,所述方法还包括:判断所述第二聚合数据块中的无效数据的占比是否超过预设阈值;当确定出所述无效数据的占比超过预设阈值时,恢复出所述第二聚合数据块中与有效数据相关的备副本数据,并删除所述第二聚合数据块。6.如权利要求1或2所述方法,其特征在于,所述方法还包括:当需要恢复与所述第一聚合数据块相关的第三备副本数据时,读取与所述第三备副本数据共同参与校验处理的第四备副本数据;从所述第三备副本数据中读取第四校验数据,所述第四校验数据是由所述第三备副本数据和所述第四备副本数据共同参与校验处理而生成的;根据所述第四备副本数据以及所述第四校验数据,恢复出所述第三备副本数据。7.如权利要求6所述方法,其特征在于,所述方法还包括:删除所述第三备副本数据至所述第一聚合数据块的索引和所述第四备副本数据至所述第一聚合数据块的索引,以及删除所述第一聚合数据块至所述第三备副本数据的反向索引和所述第一聚合数据块至所述第四备副本数据的反向索引。8.一种数据处理设备,其特征在于,包括处理单元及输出单元,其中:所述处理单元,用于确定至少两个第一待校验数据块,所述至少两个第一待校验数据块分别所属的备副本数据来自不同的数据中心;所述处理单元,用于将所述至...

【专利技术属性】
技术研发人员:赵伟彪钟延辉张秦
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1