This paper discloses a data processing method and a data processing device, which includes: determining at least two first data blocks to be checked, the spare copy data of at least two first data blocks to be checked belongs to different data centers, checking at least two first data blocks to be checked, and obtaining the first data; Stored in the first aggregated data block, where the first aggregated data block contains the second verification data, the reverse index from the first aggregated data block to the first verification data and the reverse index from the first aggregated data block to the second verification data are established, and the first aggregated data block is written into the storage unit to streamline the metadata structure of the replica data. It is conducive to the caching of metadata and can improve the efficiency of data processing.
【技术实现步骤摘要】
一种数据处理方法及数据处理设备
本申请涉及数据处理
,尤其涉及一种数据处理方法及数据处理设备。
技术介绍
随着云存储的技术发展,为了防止数据丢失,一个数据中心会接收来自其他数据中心的备副本数据,其中,备副本数据是其他数据中心中的数据的备份。为了进一步的节省该数据中心的存储开销,该数据中心会对接收到的备副本数据进行处理后再将其进行存储。该数据中心会将来自不同数据中心的备副本数据通过切分或聚合的方式形成至少两个待校验数据块,并对形成的待校验数据块进行校验处理,以得到一个校验数据。该数据中心会对该校验数据进行存储,并删除相关的备副本数据,从而达到节省该数据中心的存储开销的目的。其中,校验数据的元数据中包括用于指向相关备副本数据的反向索引,备副本数据的元数据中也包括用于指向相关校验数据的索引。在删除备副本数据时,可以保留备副本数据的元数据,以能够在其他数据中心请求对该备副本数据进行删除、读取或恢复等处理时,根据该备副本数据的元数据查找到相关的校验数据。在上述处理方式中,若一个备副本数据的数据量大,其相关的校验数据的个数会较多,相应的,该备副本数据的元数据中用于指向其相关的校验数据的索引的个数会较多,这会导致元数据的结构庞大,不利于对元数据进行缓存,并且会影响利用该元数据对备副本数据进行删除、读取或恢复等处理时的处理效率。
技术实现思路
本申请提供了一种数据处理方法及数据处理设备,能够精简备副本数据的元数据的结构,有利于该元数据进行缓存,并能够提升数据处理效率。第一方面,本专利技术实施例提供了一种数据处理方法,该方法包括:确定至少两个第一待校验数据块,所述至少两个 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:确定至少两个第一待校验数据块,所述至少两个第一待校验数据块分别所属的备副本数据来自不同的数据中心;将所述至少两个第一待校验数据块进行校验处理,得到第一校验数据;将所述第一校验数据存储至第一聚合数据块;其中,所述第一聚合数据块包含有第二校验数据,所述第二校验数据是由至少两个第二待校验数据块校验生成的;所述至少两个第二待校验数据块分别所属的备副本数据来自不同的数据中心;建立所述第一聚合数据块至所述第一校验数据的反向索引和所述第一聚合数据块至所述第二校验数据的反向索引;将所述第一聚合数据块写入存储单元。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:确定至少两个第一待校验数据块,所述至少两个第一待校验数据块分别所属的备副本数据来自不同的数据中心;将所述至少两个第一待校验数据块进行校验处理,得到第一校验数据;将所述第一校验数据存储至第一聚合数据块;其中,所述第一聚合数据块包含有第二校验数据,所述第二校验数据是由至少两个第二待校验数据块校验生成的;所述至少两个第二待校验数据块分别所属的备副本数据来自不同的数据中心;建立所述第一聚合数据块至所述第一校验数据的反向索引和所述第一聚合数据块至所述第二校验数据的反向索引;将所述第一聚合数据块写入存储单元。2.如权利要求1所述方法,其特征在于,所述方法还包括:分别建立所述至少两个第一待校验数据块分别所属的备副本数据至所述第一聚合数据块的索引以及所述至少两个第二待校验数据块分别所属的备副本数据至所述第一聚合数据块的索引,并删除所述至少两个第一待校验数据块分别所属的备副本数据以及所述至少两个第二待校验数据块分别所属的备副本数据。3.如权利要求1或2所述方法,其特征在于,所述方法还包括:当需要删除与第二聚合数据块相关的第一备副本数据时,读取与所述第一备副本数据共同参与校验处理的第二备副本数据;将所述第二备副本数据写入所述存储单元;删除所述第一备副本数据至所述第二聚合数据块的索引和所述第二备副本数据至所述第二聚合数据块的索引,以及删除所述第二聚合数据块至所述第一备副本数据的反向索引和所述第二聚合数据块至所述第二备副本数据的反向索引。4.如权利要求3所述方法,其特征在于,所述将所述第二备副本数据写入所述存储单元包括:将所述第二备副本数据按照新写或者覆盖写的方式写入所述存储单元;所述方法还包括:如果将所述第二备副本数据按照所述新写的方式写入所述存储单元,将所述第二聚合数据块中第三校验数据设置为无效数据,所述第三校验数据是由所述第一备副本数据和所述第二备副本数据共同参与校验处理而生成的。5.如权利要求4所述方法,其特征在于,所述方法还包括:判断所述第二聚合数据块中的无效数据的占比是否超过预设阈值;当确定出所述无效数据的占比超过预设阈值时,恢复出所述第二聚合数据块中与有效数据相关的备副本数据,并删除所述第二聚合数据块。6.如权利要求1或2所述方法,其特征在于,所述方法还包括:当需要恢复与所述第一聚合数据块相关的第三备副本数据时,读取与所述第三备副本数据共同参与校验处理的第四备副本数据;从所述第三备副本数据中读取第四校验数据,所述第四校验数据是由所述第三备副本数据和所述第四备副本数据共同参与校验处理而生成的;根据所述第四备副本数据以及所述第四校验数据,恢复出所述第三备副本数据。7.如权利要求6所述方法,其特征在于,所述方法还包括:删除所述第三备副本数据至所述第一聚合数据块的索引和所述第四备副本数据至所述第一聚合数据块的索引,以及删除所述第一聚合数据块至所述第三备副本数据的反向索引和所述第一聚合数据块至所述第四备副本数据的反向索引。8.一种数据处理设备,其特征在于,包括处理单元及输出单元,其中:所述处理单元,用于确定至少两个第一待校验数据块,所述至少两个第一待校验数据块分别所属的备副本数据来自不同的数据中心;所述处理单元,用于将所述至...
【专利技术属性】
技术研发人员:赵伟彪,钟延辉,张秦,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。