【技术实现步骤摘要】
数据处理方法、装置、电子设备及计算机可读存储介质
[0001]本申请涉及数据存储领域,具体而言,本申请涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]随着数据的爆炸性增长,数据容灾备份正面临前所未有的挑战。为了抑制数据过快增长,提高资源利用率,数据去重技术最近成为一个备受关注的研究课题。数据去重是指消除冗余的文件、数据块、或字节以保证只有单一的数据实例存储在磁盘上的过程,它也被称为一种容量优化保护技术,用来降低数据保护的容量需求。
[0003]传统的去重方案,一般都是使用引用计数的方式,比如说某个数据块有10个对象引用,那么这个数据块的引用计数就是10,当有引用这个块的对象删除的时候,引用计数减1,当引用计数为0的时候,数据块才最终删除。但是这种方案需要在一个分布式的系统中,需要引用计数,这是一个很复杂的工作,一方面引用计数的增减需要事务的支持,另外一方面,如果引用计数增减错误的话,可能导致存储的垃圾存储的泄漏或者丢数据,另外引用计数的增减也不是幂等的,无法重试,对分布式的实现要求更高。
技术实现思路
[0004]本申请实施例的目的旨在提供一种数据处理方法、装置、电子设备及计算机可读存储介质,本申请实施例提供的技术方案如下:一方面,本申请实施例提供了一种数据处理的方法,该方法包括:获取待上传至存储系统的目标对象的目标对象数据;将目标对象数据划分为多个目标数据块,并确定每个目标数据块的目标消息摘要;针对每一目标数据块,在存储系统的第一索引信息中查询目标数据块的目 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待上传至存储系统的目标对象的目标对象数据;将所述目标对象数据划分为多个目标数据块,并确定每个目标数据块的目标消息摘要;针对每一目标数据块,在所述存储系统的第一索引信息中查询所述目标数据块的目标消息摘要;所述第一索引信息包括多个已存储的数据块的消息摘要与每一消息摘要对应的一个数据块的存储路径之间的关联关系;针对每一目标数据块,若在所述第一索引信息中未查询到所述目标数据块的目标消息摘要,则将所述目标数据块存储至所述存储系统中,并将所述目标消息摘要与所述目标数据块的存储路径之间的关联关系添加至所述第一索引信息中;将所述目标对象数据的对象数据标识、所述目标对象数据所包含的每一目标数据块的数据块标识以及每一目标数据块的目标消息摘要之间的关联关系添加至第二索引信息中。2.根据权利要求1所述的方法,其特征在于,还包括:针对每一目标数据块,将所述目标数据块的目标消息摘要与所述目标对象数据的对象数据标识之间的关联关系添加至所述存储系统的第三索引信息中。3.根据权利要求1所述的方法,其特征在于,所述将所述目标消息摘要与所述目标数据块的存储路径之间的关联关系添加至所述第一索引信息中,包括:将所述目标消息摘要添加至所述第一索引信息的分区键中,并将所述目标数据块的存储路径关联添加至所述第一索引信息的键值中。4.根据权利要求1所述的方法,其特征在于,所述将所述目标对象数据的对象数据标识、所述目标对象数据所包含的每一目标数据块的数据块标识以及每一目标数据块的目标消息摘要之间的关联关系添加至第二索引信息中,包括:将所述目标对象数据的对象数据标识添加至所述第二索引信息的分区键中,并将所述目标对象数据所包含的每一目标数据块的数据块标识以及每一目标数据块的目标消息摘要添加至所述第二索引信息的键值中。5.根据权利要求2所述的方法,其特征在于,所述将所述目标数据块的目标消息摘要与所述目标对象数据的对象数据标识之间的关联关系添加至所述存储系统的第三索引信息中,包括:将所述目标数据块的目标消息摘要添加至所述第三索引信息的分区键中,并将所述目标对象数据的对象数据标识关联添加至所述第三索引信息的排序键中。6.根据权利要求1所述的方法,其特征在于,所述将所述目标对象数据划分为多个目标数据块,包括:基于预设窗口遍历所述目标对象数据,并确定所述窗口的在遍历过程中的哈希值;若检测到所述窗口的哈希值满足预设条件,则基于所述窗口的当前位置确定划分边界,基于所述划分边界划分所述目标对象数据,得到多个目标数据块。7.根据权利要求6所述的方法,其特征在于,还包括:若检测到所述窗口的当前位置与上一个划分边界之间形成的数据块的数据量达到预设阈值,则基于所述窗口的当前位置确定划分边界,基于所述划分边界划分所述目标对象数据,得到多个目标数据块。
8.一种数据处理方法,其特征在于,所述方法包括:接收针对目标对象数据的目标数据块的待处理请求;其中,所述待处理请求中携带有目标数据块的目标数据块标识;所述待处理请求包括待删除请求或待获取请求;基于所述待处理请求在存储系统的第二索引信息中查询与所述目标数据块标识对应的目标消息摘要;所述第二索引信息用于表征已存储的对象数据的对象数据标识、每一对象数据所包含的每一数据块的数据块标识以及每一数据块的消息摘要之间的关联关系;在所述存储系统的第一索引信息中查询所述目标消息摘要对应的目标存储路径;所述第一索引信息包括多个已存储的数据块的消息摘要与每一消息摘要对应的一个数据块的存储路径之间的关联关系;基于所述目标存储路径处理所述目标数据块。9.根据权利要求8所述的方法,其特征在于,所述待处理请求包括待删除请求;所述方法还包括:基于所述待处理请求在存储系统的第二索引信息中删除与所述...
【专利技术属性】
技术研发人员:姚宗友,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。