数据处理方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:39136563 阅读:12 留言:0更新日期:2023-10-23 14:53
本申请实施例提供了一种数据处理方法、装置及电子设备,涉及数据存储技术领域,可应用于对象存储,还可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。数据处理方法包括:获取目标对象数据;将目标对象数据划分为多个目标数据块,并确定每个目标数据块的目标消息摘要;针对每一目标数据块,若在第一索引信息中未查询到目标消息摘要,则将目标数据块存储至存储系统中,并将目标消息摘要与目标数据块的存储路径之间的关联关系添加至第一索引信息中;将对象数据标识、目标对象数据所包含的每一目标数据块的数据块标识以及每一目标数据块的目标消息摘要之间的关联关系添加至第二索引信息中。可以不依赖于计数实现数据的去重存储。重存储。重存储。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及计算机可读存储介质


[0001]本申请涉及数据存储领域,具体而言,本申请涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着数据的爆炸性增长,数据容灾备份正面临前所未有的挑战。为了抑制数据过快增长,提高资源利用率,数据去重技术最近成为一个备受关注的研究课题。数据去重是指消除冗余的文件、数据块、或字节以保证只有单一的数据实例存储在磁盘上的过程,它也被称为一种容量优化保护技术,用来降低数据保护的容量需求。
[0003]传统的去重方案,一般都是使用引用计数的方式,比如说某个数据块有10个对象引用,那么这个数据块的引用计数就是10,当有引用这个块的对象删除的时候,引用计数减1,当引用计数为0的时候,数据块才最终删除。但是这种方案需要在一个分布式的系统中,需要引用计数,这是一个很复杂的工作,一方面引用计数的增减需要事务的支持,另外一方面,如果引用计数增减错误的话,可能导致存储的垃圾存储的泄漏或者丢数据,另外引用计数的增减也不是幂等的,无法重试,对分布式的实现要求更高。

技术实现思路

[0004]本申请实施例的目的旨在提供一种数据处理方法、装置、电子设备及计算机可读存储介质,本申请实施例提供的技术方案如下:一方面,本申请实施例提供了一种数据处理的方法,该方法包括:获取待上传至存储系统的目标对象的目标对象数据;将目标对象数据划分为多个目标数据块,并确定每个目标数据块的目标消息摘要;针对每一目标数据块,在存储系统的第一索引信息中查询目标数据块的目标消息摘要;第一索引信息包括多个已存储的数据块的消息摘要与每一消息摘要对应的一个数据块的存储路径之间的关联关系;针对每一目标数据块,若在第一索引信息中未查询到目标数据块的目标消息摘要,则将目标数据块存储至存储系统中,并将目标消息摘要与目标数据块的存储路径之间的关联关系添加至第一索引信息中;将目标对象数据的对象数据标识、目标对象数据所包含的每一目标数据块的数据块标识以及每一目标数据块的目标消息摘要之间的关联关系添加至第二索引信息中。
[0005]在一些可能的实施方式中,还包括:针对每一目标数据块,将目标数据块的目标消息摘要与目标对象数据的对象数据标识之间的关联关系添加至存储系统的第三索引信息中。
[0006]在一些可能的实施方式中,将目标消息摘要与目标数据块的存储路径之间的关联关系添加至第一索引信息中,包括:
将目标消息摘要添加至第一索引信息的分区键中,并将目标数据块的存储路径关联添加至第一索引信息的键值中。
[0007]在一些可能的实施方式中,将目标对象数据的对象数据标识、目标对象数据所包含的每一目标数据块的数据块标识以及每一目标数据块的目标消息摘要之间的关联关系添加至第二索引信息中,包括:将目标对象数据的对象数据标识添加至第二索引信息的分区键中,并将目标对象数据所包含的每一目标数据块的数据块标识以及每一目标数据块的目标消息摘要添加至第二索引信息的键值中。
[0008]在一些可能的实施方式中,将目标数据块的目标消息摘要与目标对象数据的对象数据标识之间的关联关系添加至存储系统的第三索引信息中,包括:将目标数据块的目标消息摘要添加至第三索引信息的分区键中,并将目标对象数据的对象数据标识关联添加至第三索引信息的排序键中。
[0009]在一些可能的实施方式中,将目标对象数据划分为多个目标数据块,包括:基于预设窗口遍历目标对象数据,并确定窗口的在遍历过程中的哈希值;若检测到窗口的哈希值满足预设条件,则基于窗口的当前位置确定划分边界,基于划分边界划分目标对象数据,得到多个目标数据块。
[0010]在一些可能的实施方式中,还包括:若检测到窗口的当前位置与上一个划分边界之间形成的数据块的数据量达到预设阈值,则基于窗口的当前位置确定划分边界,基于划分边界划分目标对象数据,得到多个目标数据块。
[0011]另一方面,本申请实施例提供了一种数据处理的方法,该方法包括:接收针对目标对象数据的目标数据块的待处理请求;其中,待处理请求中携带有目标数据块的目标数据块标识;待处理请求包括待删除请求或待获取请求;基于待处理请求在存储系统的第二索引信息中查询与目标数据块标识对应的目标消息摘要;第二索引信息用于表征已存储的对象数据的对象数据标识、每一对象数据所包含的每一数据块的数据块标识以及每一数据块的消息摘要之间的关联关系;在存储系统的第一索引信息中查询目标消息摘要对应的目标存储路径;第一索引信息包括多个已存储的数据块的消息摘要与每一消息摘要对应的一个数据块的存储路径之间的关联关系;基于目标存储路径处理目标数据块。
[0012]在一些可能的实施方式中,待处理请求包括待删除请求;方法还包括:基于待处理请求在存储系统的第二索引信息中删除与目标数据块标识对应的目标消息摘要。
[0013]在一些可能的实施方式中,在存储系统的第一索引信息中查询目标消息摘要对应的目标存储路径之前,还包括:在第三索引信息中查询并删除目标消息摘要与目标数据块所属的目标对象数据之间的关联关系;第三索引信息用于表征已存储的每一数据块的消息摘要与数据块所属的对象数据之间的关联关系;基于目标存储路径处理目标数据块,包括:
若确定已删除目标消息摘要与目标数据块所属的目标对象数据之间的关联关系后,第三索引信息中不存在与目标消息摘要对应的关联关系,则基于目标存储路径删除目标数据块。
[0014]在一些可能的实施方式中,还包括:若确定已删除目标消息摘要与目标数据块所属的目标对象数据之间的关联关系后,第三索引信息中仍存在与目标消息摘要对应的关联关系,则不删除目标数据块。
[0015]在一些可能的实施方式中,还包括:将目标消息摘要与目标数据块所属的目标对象数据之间的关联关系添加至索引记录中;在第一索引信息中删除目标消息摘要与目标存储路径之间的关联关系。
[0016]在一些可能的实施方式中,待处理请求包括待获取请求;方法还包括:若在第一索引信息中未查询目标消息摘要,则在索引记录中查询目标消息摘要;索引记录包括已删除的消息摘要与存储路径之间的关联关系;基于索引记录中与目标消息摘要对应的目标存储路径获取目标数据块。
[0017]另一方面,本申请实施例还提供了一种数据处理装置,包括:第一获取模块,用于获取待上传至存储系统的目标对象的目标对象数据;划分模块,用于将目标对象数据划分为多个目标数据块,并确定每个目标数据块的目标消息摘要;第一查询模块,用于针对每一目标数据块,在存储系统的第一索引信息中查询目标数据块的目标消息摘要;第一索引信息包括多个已存储的数据块的消息摘要与每一消息摘要对应的一个数据块的存储路径之间的关联关系;存储模块,用于针对每一目标数据块,若在第一索引信息中未查询到目标数据块的目标消息摘要,则将目标数据块存储至存储系统中,并将目标消息摘要与目标数据块的存储路径之间的关联关系添加至第一索引信息中;第一添加模块,用于将目标对象数据的对象数据标识、目标对象数据所包含的每一目标数据块的数据块标识以及每一目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待上传至存储系统的目标对象的目标对象数据;将所述目标对象数据划分为多个目标数据块,并确定每个目标数据块的目标消息摘要;针对每一目标数据块,在所述存储系统的第一索引信息中查询所述目标数据块的目标消息摘要;所述第一索引信息包括多个已存储的数据块的消息摘要与每一消息摘要对应的一个数据块的存储路径之间的关联关系;针对每一目标数据块,若在所述第一索引信息中未查询到所述目标数据块的目标消息摘要,则将所述目标数据块存储至所述存储系统中,并将所述目标消息摘要与所述目标数据块的存储路径之间的关联关系添加至所述第一索引信息中;将所述目标对象数据的对象数据标识、所述目标对象数据所包含的每一目标数据块的数据块标识以及每一目标数据块的目标消息摘要之间的关联关系添加至第二索引信息中。2.根据权利要求1所述的方法,其特征在于,还包括:针对每一目标数据块,将所述目标数据块的目标消息摘要与所述目标对象数据的对象数据标识之间的关联关系添加至所述存储系统的第三索引信息中。3.根据权利要求1所述的方法,其特征在于,所述将所述目标消息摘要与所述目标数据块的存储路径之间的关联关系添加至所述第一索引信息中,包括:将所述目标消息摘要添加至所述第一索引信息的分区键中,并将所述目标数据块的存储路径关联添加至所述第一索引信息的键值中。4.根据权利要求1所述的方法,其特征在于,所述将所述目标对象数据的对象数据标识、所述目标对象数据所包含的每一目标数据块的数据块标识以及每一目标数据块的目标消息摘要之间的关联关系添加至第二索引信息中,包括:将所述目标对象数据的对象数据标识添加至所述第二索引信息的分区键中,并将所述目标对象数据所包含的每一目标数据块的数据块标识以及每一目标数据块的目标消息摘要添加至所述第二索引信息的键值中。5.根据权利要求2所述的方法,其特征在于,所述将所述目标数据块的目标消息摘要与所述目标对象数据的对象数据标识之间的关联关系添加至所述存储系统的第三索引信息中,包括:将所述目标数据块的目标消息摘要添加至所述第三索引信息的分区键中,并将所述目标对象数据的对象数据标识关联添加至所述第三索引信息的排序键中。6.根据权利要求1所述的方法,其特征在于,所述将所述目标对象数据划分为多个目标数据块,包括:基于预设窗口遍历所述目标对象数据,并确定所述窗口的在遍历过程中的哈希值;若检测到所述窗口的哈希值满足预设条件,则基于所述窗口的当前位置确定划分边界,基于所述划分边界划分所述目标对象数据,得到多个目标数据块。7.根据权利要求6所述的方法,其特征在于,还包括:若检测到所述窗口的当前位置与上一个划分边界之间形成的数据块的数据量达到预设阈值,则基于所述窗口的当前位置确定划分边界,基于所述划分边界划分所述目标对象数据,得到多个目标数据块。
8.一种数据处理方法,其特征在于,所述方法包括:接收针对目标对象数据的目标数据块的待处理请求;其中,所述待处理请求中携带有目标数据块的目标数据块标识;所述待处理请求包括待删除请求或待获取请求;基于所述待处理请求在存储系统的第二索引信息中查询与所述目标数据块标识对应的目标消息摘要;所述第二索引信息用于表征已存储的对象数据的对象数据标识、每一对象数据所包含的每一数据块的数据块标识以及每一数据块的消息摘要之间的关联关系;在所述存储系统的第一索引信息中查询所述目标消息摘要对应的目标存储路径;所述第一索引信息包括多个已存储的数据块的消息摘要与每一消息摘要对应的一个数据块的存储路径之间的关联关系;基于所述目标存储路径处理所述目标数据块。9.根据权利要求8所述的方法,其特征在于,所述待处理请求包括待删除请求;所述方法还包括:基于所述待处理请求在存储系统的第二索引信息中删除与所述...

【专利技术属性】
技术研发人员:姚宗友
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1