重复数据删除方法、计算机可读存储介质及文件系统技术方案

技术编号:36701130 阅读:13 留言:0更新日期:2023-03-01 09:17
本发明专利技术涉及一种重复数据删除方法、计算机可读存储介质及文件系统,用于已被切分为多个数据块且该多个数据块已进行重复数据删除的文件,该重复数据删除方法包括:根据该文件中的数据块的种类,在该文件中界定计算范围,其中,该计算范围包括该文件中的多个连续数据块;根据该计算范围中的数据块的种类,产生评估值,以决定是否标记该计算范围中的数据块;以及对该文件中的已标记数据块重新进行切分及重复数据删除。及重复数据删除。及重复数据删除。

【技术实现步骤摘要】
重复数据删除方法、计算机可读存储介质及文件系统


[0001]本专利技术有关一种重复数据删除(deduplication)的技术,且特别有关重复数据删除的优化。

技术介绍

[0002]现有文件系统通常会将文件切分为多个数据块(data chunk),再进行这些数据块的重复数据删除。所谓重复数据删除是将不同文件中内容相同的数据块,只存储其中一个,其余内容相同的数据块则不予存储,仅利用指标(pointer)指向已存储的该数据块。例如,在公司主管发送给全体员工的电子邮件中,可能包含许多内容相同的文件,上述的重复数据删除可节省大量存储空间。
[0003]在上述的数据块切分之后,每个文件末端可能会有一个剩余的残段数据块。另外,文件中若有部分数据块的内容被修改,文件系统可能会重新切分修改后的数据块,而重新切分的数据块末端也可能产生新的残段数据块。这些残段数据块的内容通常不易和其他数据块重复,故不利于重复数据删除。因此,如何减少残段数据块以提高重复数据删除的效果并节省存储空间,已成为此
中亟待解决的技术问题。

技术实现思路

[0004]为解决上述问题,本专利技术提供一种重复数据删除方法、计算机可读存储介质及文件系统,用于已被切分为多个数据块且该多个数据块已进行重复数据删除的文件,该重复数据删除方法包括:根据该文件中的数据块的种类,在该文件中界定计算范围,其中,该计算范围包括该文件中的多个连续数据块;根据该计算范围中的数据块的种类,产生评估值,以决定是否标记该计算范围中的数据块;以及对该文件中的已标记数据块重新进行切分及重复数据删除。
[0005]本专利技术另提供一种计算机可读存储介质,应用于电子装置、计算装置、数据存储装置、计算机或服务器中,存储有指令,以执行上述的重复数据删除方法。
[0006]本专利技术另提供一种文件系统,应用于计算装置或计算机中,通过处理器执行上述的重复数据删除方法。
[0007]本专利技术提供的重复数据删除方法、计算机可读存储介质及文件系统根据文件中数据块种类产生评估值,再根据评估值决定是否对数据块重新进行切分及重复数据删除,故能避免效益不佳的重新切分,以减少残段数据块而提高重复数据删除的效益并节省存储空间。
附图说明
[0008]图1为根据本专利技术中一实施例的一种重复数据删除方法的应用情境示意图。
[0009]图2为根据本专利技术中一实施例的重复数据删除的示例图。
[0010]图3为根据本专利技术中一实施例的文件与暂存区的示例图。
[0011]图4及图5为根据本专利技术中不同实施例的已修改数据块的重新切分及重复数据删除的示例图。
[0012]图6为根据本专利技术中一实施例的一种重复数据删除方法的流程图。
[0013]图7为根据本专利技术中一实施例的一种重复数据删除方法的示例图。
[0014]附图标记说明
[0015]1~9:数据块
[0016]3’
,3”,5

:数据块
[0017]110:电子装置
[0018]120:存储装置
[0019]200:文件
[0020]710~760:文件
[0021]300:暂存区
[0022]501:数据块部分
[0023]S61~S69:方法步骤
具体实施方式
[0024]以下经由特定的具体实施例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本专利技术的其他优点及技术效果。
[0025]图1为根据本专利技术中一实施例的一种重复数据删除方法的应用情境示意图。
[0026]本实施例的重复数据删除方法可应用于电子装置110。电子装置110可为智能手机、计算机、服务器、或其他具有数据处理能力的电子装置或计算装置,此外,电子装置110亦可为用于近端或云端的数据存储装置或数据存储服务器。电子装置110可通过各种网络(如有线网络或无线网络)连接存储装置120。存储装置120为位于远端或云端的另一个电子装置,用于存储文件系统中的文件。电子装置110可以自存储装置120读取文件系统中的文件,再将修改后的文件写回存储装置120。
[0027]图2为根据本专利技术中一实施例的重复数据删除的示例图,其中,电子装置110将文件200切分为六个数据块,这些数据块可具有多种不同长度。如何将文件切分为多个不同长度的数据块属于现有技术,例如可根据文件的数据内容进行滚动散列运算(rolling hash,亦称为递归散列运算(recursive hashing)或滚动校验和(rolling checksum)),或执行其他切分演算法,以决定切分数据块的位置。
[0028]文件200的第一数据块位于图中最左侧,文件200的第六数据块位于图中最右侧。每个数据块中的号码是该数据块的代号,相同的代号表示相同的数据内容。文件200有一个对应的文件描述记录(file descriptor),其中记录文件200的每一个数据块的代号,例如下面的表格一所示,文件200的第一数据块的代号为1,文件200的第二数据块和第四数据块有相同内容,其代号皆为2,文件200的第三数据块和第五数据块亦有相同内容,其代号皆为3,文件200的第六数据块的代号为4。电子装置110会对文件200进行重复数据删除,因此,存储装置120中仅存储1、2、3、4这四个数据块。文件描述记录可存储于存储装置120中。当电子装置110存取文件200时,其文件描述记录可暂存于电子装置110中。当有需要时,电子装置110可根据文件描述记录重组文件200。
[0029]表格一
[0030]位置顺序一二、四三、五六数据块代号1234
[0031]当电子装置110存取一个文件时,可在电子装置110中设置一个暂存区,用于暂存电子装置110需要的数据块,并暂存电子装置110修改过的数据块,以免数据块在电子装置110与存储装置120之间频繁传送而降低处理效率。例如图3所示,电子装置110设置暂存区300以暂存文件200的数据块,其中,有电子装置110执行的两个不同应用软件需要读取文件200的第二数据块2,因此,电子装置110自存储装置120取得数据块2并将其存入暂存区300,以供应用软件读取。另外,文件200的第五数据块3经过两次修改,分别产生部分的数据块3

及3”,其中,部分数据块3”的产生时间较晚,因此覆盖了部分数据块3

且被写入暂存区300。
[0032]图4为根据本专利技术中一实施例的已修改数据块的重新切分及重复数据删除的示例图,其中,左图绘示重新切分及重复数据删除前的文件200,右图则绘示重新切分及重复数据删除后的文件200。
[0033]本实施例中,文件中的数据块可分为三个种类,即未修改数据块(在图中无特别标示)、已修改数据块(在图中以网点标示)及残段数据块(在图中以斜线标示),其中,未修改数据块是指自存储装置120取得后未经过修改且非处于文件末端的数据块,例如图4左图中的数据块1、2、3,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种重复数据删除方法,用于已被切分为多个数据块且该多个数据块已进行重复数据删除的文件,该重复数据删除方法包括下列步骤:根据该文件中的数据块的种类,在该文件中界定计算范围,其中,该计算范围包括该文件中的多个连续数据块;根据该计算范围中的数据块的种类,产生评估值,以决定是否标记该计算范围中的数据块;以及对该文件中的已标记数据块重新进行切分及重复数据删除。2.如权利要求1所述的重复数据删除方法,其中,该文件的该多个数据块具有多个不同长度,且该文件的该多个数据块的种类包括未修改数据块、已修改数据块及残段数据块。3.如权利要求2所述的重复数据删除方法,其中,该界定该计算范围的步骤包括下列子步骤:将该计算范围的头端设为该文件中的第一个已修改数据块或残段数据块;以及将该计算范围的尾端设为该文件中位于该头端后的下一个已修改数据块或残段数据块,其中,该计算范围包括该文件中自该头端至该尾端的多个连续数据块。4.如权利要求3所述的重复数据删除方法,其中,该方法还包括下列步骤:若该评估值大于或等于一阈值,则将该尾端改设为该文件中位于该尾端后的下一个已修改数据块或残段数据块,再重新计算以产生该评估值,以决定是否标记该计算范围中的数据块。5.如权利要求3所述的重复数据删除方法,其中,该方法还包括下列步骤:若该评估值小于一阈值,则将该头端改设为该文件中自该尾端开始的第一个已修改数据块或残段...

【专利技术属性】
技术研发人员:江宗翰苏璟玮郑钦宗
申请(专利权)人:威联通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1