【技术实现步骤摘要】
一种数据去重方法、电子设备及存储介质
[0001]本申请涉及数据处理
,尤其涉及一种数据去重方法、电子设备及存储介质。
技术介绍
[0002]数据去重技术又称重复数据删除技术,利用数据去重技术能够在目标数据中找出重复数据并删除。重复数据的删除不仅能够降低目标数据所需的存储空间,而且还能够降低目标数据在数据传输过程中的数据传输量。因此,数据去重技术已经被广泛应用于数据的存储以及数据的传输。
[0003]由于数据去重技术的广泛应用,如何对目标数据进行数据去重已经成为了相关技术人员不得不面临的技术问题。
技术实现思路
[0004]本申请实施例提供一种数据去重方法、电子设备及存储介质,以提高数据去重的去重效果。
[0005]第一方面,本申请实施例提供了一种数据去重方法,该方法包括:
[0006]针对目标数据中的待去重数据,确定第一指定数据;
[0007]以第一指定数据的末端数据的下一位数据为起点,在待去重数据中获取数据长度符合第一长度阈值的待查重数据;
[0008]根据待 ...
【技术保护点】
【技术特征摘要】
1.一种数据去重方法,所述方法包括:针对目标数据中的待去重数据,确定第一指定数据;以所述第一指定数据的末端数据的下一位数据为起点,在所述待去重数据中获取数据长度符合第一长度阈值的待查重数据;根据所述待查重数据与所述目标数据的已去重局部数据之间是否存在相同的数据,确定所述待去重数据与所述已去重局部数据之间是否存在重复数据;若存在重复数据,则对所述待去重数据进行数据去重处理。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述待查重数据与所述已去重局部数据之间不存在相同的数据,则更新所述待查重数据;更新后的所述待查重数据的起始数据位于所述待查重数据的起始数据之前,更新后的所述待查重数据的起始数据与所述待查重数据的起始数据之间间隔指定数目个字节;根据更新后的所述待查重数据与所述已去重局部数据之间是否存在相同的数据,确定更新后的所述待去重数据与所述已去重局部数据之间是否存在重复数据;迭代执行上述确定所述待去重数据与所述已去重局部数据之间是否存在重复数据的过程,直至满足对应配置的迭代停止条件。3.根据权利要求1或2任一项所述的方法,其特征在于,在根据所述待查重数据与所述目标数据的已去重局部数据之间是否存在相同的数据,确定所述待去重数据与所述已去重局部数据之间是否存在重复数据之前,所述方法还包括:在所述已去重局部数据中获取数据长度符合所述第一长度阈值的待比对数据;根据所述待查重数据是否存在相同的待比对数据,确定所述待查重数据与所述已去重局部数据之间是否存在相同的数据。4.根据权利要求3所述的方法,其特征在于,所述根据所述待查重数据是否存在相同的待比对数据,确定所述待查重数据与所述已去重局部数据之间是否存在相同的数据,包括:确定所述待查重数据对应的第一哈希值;确定所述待比对数据对应的第二哈希值;根据所述第一哈希值是否存在相同的第二哈希值,确定所述待查重数据与所述已去重局部数据之间是否存在相同的数据。5.根据权利要求1所述的方法,其特征在于,所述以所述第一指定数据的末端数据的下一位数据为起点,在所述目标数据的待去重数据中获取数据长度符合第一长度阈值的待查重数据,包括:确定所述待去重数据中的第二指定数据的数据长度是否不低于所述第一长度阈值;所述第二指定数据的数据起点位于所述第一指定数据的末端数据之后;当所述第二指定数据的数据长度不低于所述第一长度阈值时,以所述第一指定数据的末端数据的下一位数据为起点,在所述待去重数据中获取所述待查重数据。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:当所述第二指定数据的数据长度低于所述第一长度阈值时,确定所述第一指定数据中的第一局部数据与所述已去重局部数据中的第二局部数据是否相同;基于所述第一局部数据与所述第二局部数据是否相同,确定所述待去重数据与所述已去重局部数据之间是否存在重复数据;
其中,所述第一局部数据的数据起点与所述第一指定数据的数据起...
【专利技术属性】
技术研发人员:张子扬,高翔,齐江,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。