用于管理海量存储系统的方法和数据处理系统技术方案

技术编号:2840709 阅读:188 留言:0更新日期:2012-04-11 18:40
提供了一种用于管理海量存储系统的方法,其中所述海量存储系统包括第一存储空间和第二存储空间。生成文件索引,所述文件索引以均匀分布方式列出每个文件连同第一特性量、第二特性量和状态信息,其中所述状态信息指定所述文件是被保持在所述第一存储空间上还是所述第二存储空间上。从所述文件索引中选择文件样本。所述文件样本包含给定数量的文件,其中所述给定数量的文件中的每个文件的所述状态信息指定所述文件被保持在所述第一存储空间上。通过使用所述文件样本中包括的每个文件的所述第一特性量来确定第一关键值,以及通过使用所述文件样本中的每个文件的所述第二特性量来确定第二关键值。接着确定文件的第一子集。

【技术实现步骤摘要】

本专利技术一般涉及一种用于管理海量存储系统的方法和数据处理系统,并具体地涉及一种用于管理大量文件从一存储空间到另一存储空间的迁移的方法和数据处理系统。
技术介绍
海量存储系统一般被用于管理、存储和检索典型地在一个文件系统中所组织的大量文件。海量存储系统一般包括层级存储管理(HSM)系统和其上物理地存储文件的高速与较慢存储设备。因此,请求从文件系统存储或检索文件的应用不必非要知道文件所存储的位置。层级存储管理系统把满足某种标准的文件(例如超过100天的文件)从高速存储设备(诸如硬磁盘设备)迁移到较慢存储设备(诸如磁带设备)。如果文件已被迁移到较慢存储设备,并且用户想要访问该文件,则它被拷贝到高速存储设备并随之对用户可用。因此,访问存储在较慢存储设备上的文件花费时间较长。因此,层级存储管理系统应该以一种智能方式来安排高速存储设备和较慢存储设备上的文件,使得经常由用户请求的文件被保持在高速存储设备上。 原则上,始终把所有文件存储在高速存储设备上将是理想的。但是,高速存储设备通常比起较慢存储设备更昂贵,从而通过利用较慢存储设备可以降低海量存储系统的总成本。 如果必须由层级存储管理系统来管理大量文件,则会出现关于选择用于迁移的适当文件的问题。如果达到了高速存储设备(其例如可以是层1存储设备)的存储使用的高阈,则基于阈的自动迁移可开始迁移文件。典型地,合格的文件被预先确定。如果文件数量极大,例如大于108个文件,则必须被执行以便确定用于迁移的文件的对所有文件的查询需要极长的时间量。此外,难于找到最合格的文件,因为存储在高速存储设备上的所有文件需要首先被全体扫描,用来确定用于更多或更少个合格文件的标准。需要第二查询来基于所述第一查询的标准搜索文件。因此,难于以及时的方式确定用于合格候选者的标准。用于迁移的合格候选者例如可能是相对旧或相对大的文件,而应该被留在快速存储设备上的候选者是相对新或相对小的文件。 IBM的Tivoli Storage Manager(TSM)系统的层级存储管理系统使用例如候选者列表,其包含了被包含在文件系统中的所有文件的集合的子集。所述子集借助通过文件系统的迭代来进行持续优化。由于候选者列表包含最大数量的条目,所以未被包含在列表中的文件无法被标识为候选者。因此,候选者列表仅包含有限数量的合格文件。无论何时当发现新的合格候选者时,其它文件就必须从候选者列表中移出。如果108至109个文件需要被层级存储管理系统管理,则这导致大量的CPU使用和对文件系统的输入/输出访问。 因此,需要一种用于管理海量存储系统的改进方法和数据处理系统。
技术实现思路
根据本专利技术的实施例,提供了一种用于管理海量存储系统的方法,其中所述海量存储系统包括第一存储空间和第二存储空间。生成文件索引,所述文件索引以均匀分布方式列出每个文件连同第一特性量、第二特性量和状态信息,其中所述状态信息指定所述文件是被保持在所述第一存储空间上还是所述第二存储空间上。从所述文件索引中选择文件样本。所述文件样本包含给定数量的文件,其中所述给定数量的文件中的每个文件的所述状态信息指定所述文件被保持在所述第一存储空间上。通过使用所述文件样本中包括的每个文件的所述第一特性量来确定第一关键值,以及通过使用所述文件样本中的每个文件的所述第二特性量来确定第二关键值。接着确定文件的第一子集,对于其所包括的每个文件,所述第一特性量大于所述第一关键值,所述第二特性量大于所述第二关键值,并且所述文件通过所述状态信息指定被所述第一存储空间所保持。 生成文件索引,所述文件索引以均匀分布方式列出文件系统的每个文件连同第一和第二特性量以及状态信息。以均匀分布方式列出所述文件。因此,以下述方式在所述文件索引中列出文件,所述方式是将所述文件在所述第一和所述第二存储空间上的安排完全分离。从所述文件索引选出文件样本。所述文件样本包含被保持在所述第一存储空间上的给定数量的文件。保持在所述第一存储空间上的文件可通过在每个文件被分配给文件样本之前检查每个文件的状态信息来标识。通过使用包含在所述文件样品中的文件的第一特性量,确定第一关键值。同样地,通过使用包括在所述文件样品中的文件的第二特性量,确定第二关键值。确定文件的第一子集,其包括包含在所述文件索引中的所有文件,对于所述文件,所述第一特性量大于所述第一关键值,所述第二特性量大于所述第二关键值,并且所述状态信息指定所述文件被所述第一存储空间所保持。 仅包含在所述文件样本中的文件的第一和第二特性量被用于确定所述第一和第二关键值。包含在所述文件样本中的给定数量的文件可以比包含在所述文件索引中的全部数量的文件少得多。因此,可以迅速确定所述第一和第二关键值。由于以均匀分布方式在文件索引中列出文件,所以所述文件样本包含文件的代表性分布,并由此所述第一关键值和所述第二关键值提供了用于给文件索引的所有文件分类的有用的量。 根据本专利技术实施例,确定文件的第二子集,其中对于文件的第二子集所包括的每个文件,所述第一特性量小于所述第一关键值但大于第一阈值,所述第二特性量大于所述第二关键值,并且所述文件通过所述状态信息指定被所述第一存储空间所保持。确定文件的第三子集,对于其所包括的每个文件,所述第一特性量大于所述第一关键值,所述第二特性量小于所述第二关键值但大于第二阈值,并且所述文件通过所述状态信息指定被所述第一存储空间所保持。此外,确定文件的第四子集,对于其所包括的每个文件,所述第一特性量小于所述第一关键值但大于所述第一阈值,所述第二特性量小于所述第二关键值但大于所述第二阈值。 如果包含在文件索引中的文件满足以上给定条件,则它们被分类成文件的第一、第二、第三或第四子集。通过使用所述文件索引以及通过使用所述第一关键值、第二关键值、第一阈值和第二阈值,标识出例如可从第一存储空间中进行移动的合格候选者。当需要时常得出文件索引,并且仅通过使用所述文件索引选出的样本来确定所述第一关键值及所述第二关键值时,根据本专利技术的方法是尤其有利的。因此,所述第一关键值及所述第二关键值可被迅速确定,因为未使用整个文件索引。 根据本专利技术实施例,如果在所述文件的第一子集中包含多于所述给定数量的文件,则将所述文件的第一子集中给定数量的文件从所述第一存储空间移动到所述第二存储空间,并且如果在所述文件的第一子集中包含少于所述给定数量的文件,则将包含在第一存储空间中的所述文件的第一子集的所有文件从所述第一存储空间移动到所述第二存储空间。此外,移动所述文件的第二子集或所述文件的第三子集或所述文件的第四子集中的剩余数量的文件,使得总共所述给定数量的文件从所述第一存储空间移动到所述第二存储空间。更新所述文件的第一子集、所述文件的第二子集、所述文件的第三子集和所述文件的第四子集。 因此,通过使用将所述文件分类成文件的第一、第二、第三和第四子集,确定用于移动文件的合格候选者。优选地,移动所述文件的第一子集中的下述文件,对于所述文件,所述第一特性量大于所述第一关键值,所述第二特性量大于所述第二关键值。如果假定给定数量的文件将被移动,并且在所述文件的第一子集中包含多于给定数量文件的文件,则从所述文件的第一子集中移动给定数量的文件。不过,如果假定多于在所述文件的第一子集中包含的文本文档来自技高网
...

【技术保护点】
一种用于管理海量存储系统的方法,所述海量存储系统包括第一存储空间和第二存储空间,所述方法包括:生成文件索引,所述文件索引以均匀分布方式列出每个文件连同第一特性量、第二特性量和状态信息,所述状态信息指定所述文件是被保持在所述第一存储空 间上还是所述第二存储空间上;从所述文件索引中选择文件样本,所述文件样本包含给定数量的文件,其中所述给定数量的文件中的每个文件的所述状态信息指定所述文件被保持在所述第一存储空间上;通过使用所述文件样本中的每个文件的所述第一特性 量来确定第一关键值;通过使用所述文件样本中的每个文件的所述第二特性量来确定第二关键值;以及确定文件的第一子集,对于其所包括的每个文件,所述第一特性量大于所述第一关键值,所述第二特性量大于所述第二关键值,并且所述文件通过所述状 态信息指定被所述第一存储空间所保持。

【技术特征摘要】
EP 2006-1-2 06100012.1的任一项的方法的计算机可执行指令。 在另一方面,本发明涉及一种用于管理海量存储系统的数据处理系统,其中所述海量存储系统包括第一存储空间和第二存储空间,并且其中所述数据处理系统包括用于生成文件索引的装置,所述文件索引以均匀分布方式列出每个文件连同第一特性量、第二特性量和状态信息。所述状态信息指定所述文件是被保持在所述第一存储空间上还是所述第二存储空间上。所述数据处理系统还包括用于从所述文件索引中选择文件样本的装置,所述文件样本包含给定数量的文件,并且其中所述给定数量的文件中的每个文件的所述状态信息指定所述文件被保持在所述第一存储空间上。所述数据处理系统还包括用于通过使用所述文件样本中的每个文件的所述第一特性量来确定第一关键值的装置和用于通过使用所述文件样本中的每个文件的所述第二特性量来确定第二关键值的装置,以及用于确定文件的第一子集的另外的装置,对于所述文件的第一子集所包括的每个文件,所述第一特性量大于所述第一关键值,所述第二特性量大于所述第二关键值,并且所述文件通过所述状态信息指定被所述第一存储空间所保持。附图说明下文中将仅通过示例并参考附图来更详细地描述本发明的优选实施例,在附图中图1示出了包括海量存储系统的计算机系统的框图;图2描述了示出由根据本发明的方法执行的基本步骤的流程图;图3描述了在大型文件系统内文件相对于文件年龄的典型分布;图4示出了文件数量相对于文件大小的典型分布;以及图5在图形上示出了用于确定文件的第一、第二、第三和第四子集的标准。具体实施方式图1示出了包括海量存储系统的计算机系统100的框图。计算机系统100包括非易失性存储设备106、微处理器108、易失性存储设备102、屏幕150和输入设备152。海量存储系统包括第一存储空间102和第二存储空间104,在此示例中此二者均被分配在非易失性存储设备106上。第一存储空间102保持第一多个文件114,例如多于108个文件。第二存储空间104保持第二多个文件116,例如也多于108个文件。 微处理器108执行同样是海量存储系统一部分的计算机程序产品110。计算机程序产品110包括用于执行根据本发明方法的指令。通过扫描第一存储空间102以及可选地扫描第二存储空间104而生成文件索引118。文件索引118存储在易失性存储设备112上。它被永久性存储在第一存储空间102上。也可能文件索引118仅被部分地加载到易失性存储设备112中,特别是当该索引很大的时候。 文件索引118列出了存储在第一存储空间102以及可选地存储在第二存储空间104中的每个文件。因此,文件索引列出了第一多个文件114和第二多个文件116中的每个文件。对于文件索引118中列出的文件120,还在文件索引118中存储了第一特性量122、第二特性量124和状态信息126。状态信息126指定该文件是被保持在第一存储空间102上还是第二存储空间104上。状态信息126还可指定文件地址,例如,该文件在第一存储空间102或第二存储空间104上存储的位置,使得该文件可被立刻访问到。在本发明实施例中,通过扫描第一存储空间102以及扫描第二存储空间104,以及通过使用散列算法来把第一多个文件114或第二多个文件116中的每个文件的文件信息存储在文件索引118中,而生成文件索引118。通常,散列算法允许用高效方式存储不仅仅第一和第二特性量。可以通过使用散列算法用高效方式存储许多属性。第一特性量和第二特性量则属于所述属性。信息状态也属于所述属性,信息状态指定文件在非易失性存储设备106上存储的位置。以均匀分布方式在文件索引118中列出文件,例如这通过使用散列算法来确保。 从文件索引118中选择文件样本128。文件样本128包含文件索引118中的给定数量130个文件。文件样本128中的文件例如可以从文件索引118中列出的第一文件中取得,或者它们可以随机地从文件索引118中挑选出来。给定数量130例如可以由系统管理员来设置。例如当初始化系统时,在屏幕150上显现的请求将要求系统管理员通过使用输入设备152来键入给定数量130,给定数量130将存储在易失性存储设备112上或可替换地存储在非易失性存储设备106上。 对于文件样本128,仅考虑物理地存储在第一存储空间102内的文件。这可以通过在将所选文件分配到文件样本128之前检查所选文件的状态信息来完成。例如,如果文件120被分配到文件样本128,则之前已检查看状态信息126,以便确保文件120最初存储在第一多个文件114上。 通过使用文件样本128中包含的每个文件的第一特性量来确定第一关键值134。因此,通过使用文件120的第一特性量122连同文件样本128的其它文件的其它第一特性量,确定第一关键值134。 通过使用文件样本128中包含的每个文件的第二特性量来确定第二关键值136。因此,通过使用文件120的第二特性量124连同文件样本128中包含的所有其它文件的其它第二特性量,确定第二关键值136。第一关键值134和第二关键值136存储在易失性存储设备112上或可替换地存储在非易失性存储设备106上。 确定文件的第一子集138。来自文件索引118的文件140被分配给文件的第一子集138,由此其第一特性量154大于第一关键值134,并且由此其第二特性量156大于第二关键值136,并且所述文件140的状态信息158指定在第一存储空间102上保持文件。 还确定文件的第二子集142,其包括来自文件索引118的所有文件144,所述文件144具有的第一特性量小于第一关键值134但大于第一阈值158,且具有的第二特性量大于第二关键值136,所述文件144由状态信息指定在第一存储空间102上存储。 还确定文件的第三子集146,其包括来自文件索引118的所有文件148,所述文件148具有的第一特性量大于第一关键值134,且具有的第二特性量小于第二关键值136但大于第二阈值160,所述文件148由状态信息指定在第一存储空间102上存储。 还确定文件的第四子集154,其包括来自文件索引118的所有文件156,所述文件156具有的第一量小于第一关键值134但大于第一阈值158,且具有的第二特性量小于第二关键值136但大于第二阈值160,所述文件156由状态信息指定在第一存储空间102上存储。第一阈值158和第二阈值160是例如由系统管理员指定的恒定值。 因此,文件的第一子集138、文件的第二子集142、文件的第三子集146和文件的第四子集154包括满足以上给定条件的文件。大致上,文件子集138、142、146和154例如可被系统管理员用来得出关于第一存储空间102的统计。在本发明的优选实施例中,文件子集138、142、146和154用于标识候选文件,所述候选文件被假定从第一多个文件114移动到第二多个文件116。优选地,包括在文件的第一子集138中的文件被首先移动,接着包括在文件的第二和第三子集144和148中的文件被移动。最后,如果文件的第一、第二和第三子集的所有文件都已被移动,则来自文件的第四子集154的文件从第一存储空间102被移动到第二存储空间104。典型地,将从文件的第一子集138中移出给定数量的文件。给定数量可被选择,从而例如使得在第一存储空间102上一定量的存储空间可用。如果比文件的第一子集138中可用文件更多的文件必须被移动,则包含在文件的第二子集142和/或文件的第三子集146中的文件将被移动。最后,如果在文件的第一、第二和第三子集138、142和146中未包含足够文件,则来自文件的第四子集154的文件将被移动。在文件已被移动之后,在文件的第一子集138、文件的第二子集142、文件的第三子集146和文件的第四子集154中包含的文件必须被相应地更新。这大致上意味着,已经从第一多个文件114移动到第二多个文件116的文件必须从相应的文件子集中取消。从而,文件索引118必须被更新,这意味着已经从第一存储空间102移动到第二存储空间104的文件的状态信息必须被改变。 典型地,在文件从第一存储空间移动到第二存储空间之前,文件的第一子集138、文件的第二子集142、文件的第三子集146和文件的第四子集154被动态确定。这确保各种文件子集138、142、146和154包含满足在当调度迁移之时由第一关键值134和136设置的需求的文件。 当包含在文件的第一、第二、第三或第四子集138中的文件数量变得非常少,以至于基本上在这些文件子集中未包含足够的文件时,重新生成文件索引118,来提供一种在第一存储空间中生成足够的自由空间的充分方式。 在优选实施例中,文件的第一特性量对应于文件年龄(age)。第二特性量对应于文件大小。那么第一关键值134例如是特定文件年龄。那么第二关键值136是特定文件大小。将在以下描述确定这些值的各种可能性。那么第一阈值158将是另一特定文件年龄,而第二阈值160将指代另一特定文件大小。包含在文件的第一子集138中的文件是相对老和相对大的文件,因为这些文件所具有的第一特性量134大于第一关键值158,且其具有的第二特性量136大于第二关键值160。 在图1示出的示例中,第一存储空间102和第二存储空间104被分配在一个非易失性存储设备106上。非易失性存储设备106可以例如是硬盘驱动器。那么第一存储空间102可以是硬盘驱动器上的已分配空间。那么第二存储空间可以是例如其中以包括方式在硬盘上存储文件的存储空间。在本发明的另一实施例中,第一存储空间可以是在硬盘上,而第二存储空间可以被分配在不同存储设备上,所述存储设备例如可以是磁带驱动器。此外,第一存储空间例如可以位于客户端计算机系统上,从而用户可快捷迅速地访问包含在第一存储空间上的文件中存储的数据。那么第二存储空间可以是位于服务器计算机上的存储空间,所述服务器计算机通过因特网连接而连接于客户端计算机,从而包含在服务器计算机上的数据仅可以用较慢的方式对客户端计算机上的用户可用。 图2描述了示出由根据本发明的方法执行的基本步骤的流程图。在步骤200,生成以均匀分布方式列出每个文件连同第一特性量、第二特性量和状态信息的文件索引。状态信息指定将文件保持在第一存储空间或第二存储空间上。在步骤202,从文件索引中选择文件样本。文件样本包含给定数量的文件,而所述给定数量的文件中的每个文件的状态信息指定将文件保持在第一存储空间上。在步骤204,通过使用所述文件样本中的每个文件的第一特性量来确定第一关键值,而在步骤206,通过使用所述文件样本中的每个文件的第二特性量来确定第二关键值。在步骤208,确定文件的第一子集。 在本发明实施例中,根据本发明的方法进行到步骤210,在步骤210确定文件的第二子集,并且本发明的方法进行到步骤212,在步骤212确定文件的第三子集,并且本发明的方法进行到步骤214,在步骤214确定文件的第四子集。此外,在步骤216,优选地来自文件的第一子集的文件从第一存储空间迁移到第二存储空间。 图3描述了对于大型文件系统的文件数量相对于文件年龄的典型分布300。x轴302指代以天为单位的文件年龄,而y轴304指代文件数量。文件年龄通常指代从该文件上次被访问开始的时间段。如从图中可见,对于特定年龄的文件数量基本未偏离文件的平均数量Nave306。因此,在文件系统内,文件数量相对于文件年龄或多或少地均衡分布。基本上,仅可以使用一个标准(即文件年龄)来确定假定要从第一存储空间迁移到第二存储空间的文件。例如,可以迁移比一个月更久的所有文件。不过,如图3所示,文件数量相对于文件年龄或多或少地均衡分布。因此,仅仅文件年龄不会真正地提供用于迁移文件的非常有用的标准。 图4示出了文件数量相对于文件大小的典型分布400。在此图中,文件数量404被示出为文件大小402的函数。如可见的,文件数量404相对于文件大小402减少。因此,仅仅少量文件包含所存储的多数数据,而大...

【专利技术属性】
技术研发人员:JP阿克尔贝因C米勒J福特
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1