【技术实现步骤摘要】
一种数据分片方法、装置以及电子设备
[0001]本专利技术涉及数据存储领域,尤其涉及一种数据分片方法、装置以及电子设备。
技术介绍
[0002]为了保证数据不丢失,往往需要定期对数据进行备份,但是多次备份间存在大量重复数据。为了避免多次备份间备份重复的数据,需要对待备份数据与已备份数据进行分片,分别分为多个数据段。通过依次比较对应数据段是否相同,找到待备份数据中相对于已备份数据有变动的数据段,进而,只备份这些有变动的数据段,其他重复的数据段不用再备份。
[0003]但是,目前的分片方式,是将数据分为多个相同长度的数据段,或者,利用数据中一些特定值作为分片点进行分片,并在超过预设最大分片长度处增加分片点。在待备份数据为已备份数据中插入或删除了一部分数据的情况下,插入或删除了一部分数据所在数据段的后面的数据对应位置也变动,上述两种分片方式,会将插入或删除了一部分数据所在数据段以及该数据段后面的数据段也识别为与已备份数据不相同。这样,使得能够识别出来的重复数据量降低,需要备份的数据量增加。
[0004]因此,如何提 ...
【技术保护点】
【技术特征摘要】
1.一种数据分片方法,其特征在于,包括:确定第一分片点与第二分片点,所述第一分片点是根据第一预设条件确定的,所述第二分片点是根据第二预设条件确定的,所述第一分片点与所述第二分片点为数据中相邻的两个分片点;在所述第一分片点与所述第二分片点之间的第一数据段的长度大于最大分片长度的情况下,根据所述第一数据段中每个字节段的hash值,在所述第一数据段中确定第三分片点,所述第一数据段包括多个字节段,所述多个字节段中的每个字节段包含的字节数是相同的,所述第三分片点对应的字节段的hash值符合第三预设条件。2.根据权利要求1所述的方法,其特征在于,所述第三预设条件为字节段的hash值在所述字节段所属数据段中所有字节段对应的hash值中是最小的;或者,所述第三预设条件为字节段的hash值在所述字节段所属数据段中所有字节段对应的hash值中是最大的。3.根据权利要求2所述的方法,其特征在于,在所述第一预设条件和所述第二预设条件相同的情况下,所述第一预设条件与所述第三预设条件相同;或者,所述第一预设条件与所述第三预设条件不同,其中,所述第一预设条件为字节段的hash值大于第一目标hash值;或者,所述第一预设条件与所述第三预设条件不同,其中,所述第一预设条件为字节段的hash值小于或等于第二目标hash值。4.根据权利要求2所述的方法,其特征在于,在所述第一预设条件和所述第二预设条件不相同的情况下,所述第一预设条件与所述第三预设条件相同,所述第二预设条件为所述字节段的hash值大于第一目标hash值,或者,所述第二预设条件为字节段的hash值小于或等于第二目标hash值;或者,所述第二预设条件与所述第三预设条件相同,所述第一预设条件为所述字节段的hash值大于第一目标hash值,或者,所述第一预设条件为字节段的hash值小于或等于第二目标hash值。5.根据权利要求3或4任一所述的方法,其特征在于,在所述根据所述第一数据段中每个字节段的hash值,在所述第一数据段中确定第三分片点之前,还包括:确定最小分片长度,所述最小分片长度指示任意两个相邻的分片点之间的数据段的最小长度;获取所述第一数据段中每个字节段的hash值,所述每个字节段是以第一数据段中第二数据段中任一字节为起始字节得到的,所述第二数据段的第一个字节与第一数据段第一个字节之间的长度大于或等于最小分片长度,所述第二数据段的最后一个字节与第一数据段最后一个字节之间的长度大于或等于所述最小分片长度与字节段的长度的和。6.根据权利要求5所述的方法,其特征在于,所述第一数据段包括M个字节,所述最小分片长度包括L个字节,所述字节段包括N个字节,所述第一数据段包括M
‑
2L
‑
N+1个字节段。7.一种数据分片装置,其特征在于,所述装置包括确定单元:
所述确定单元用于确定第一分片点与第二分片点,所述第一分片点是根据第一预设条件确定的,所述第...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。