计算机数据的存储制造技术

技术编号:2889921 阅读:159 留言:0更新日期:2012-04-11 18:40
在分层存储管理系统中,当在特定时间内文件未曾被访问过时,文件自动地归档。对于大的数据库文件,即使只用过少量记录,文件也不能归档。本发明专利技术维持一个辅助数据库,用于标示访问过哪些数据块和访问日期。未曾访问过的块接着被归档和自盘文件中删除以减小存储需求量。(*该技术在2015年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及计算机数据文件的分层存储管理。在过去的十年内,在用作大容量存储设备的个人计算机硬盘上存储的数据数量很快地增长。对于普遍采用1GB(千兆字节)或更大的包含成千上万文件的硬盘子系统的网络文件服务器上所存储的数据而言更是如此。通常在网络文件服务器上的许多文件不常受到访问。这可能有不同原因该文件可能是一个老版本,是一个后备复制文件,或者被存储起来只是以备有朝一日需要时调用。该文件可能完全是冗余的;但只有文件拥有者才能鉴别它为冗余,因此该文件就由于后备/安全理由被保存下来。良好的计算实践认为不一定将无把握的文件无限期地保留下来。其自然后果是硬盘上塞满了旧文件。在每一个从最小到最大的基于微处理器的个人计算系统中差不多都如此。分层存储管理(HSM)是一个已知的用于解决此问题的技术。大部操作系统维持一个有关文件被更新(即被写过)的最近日期和时刻的记录。许多操作系统还维持一个有关文件被访问(即被读过)的最近日期和时刻的记录。HSM系统周期地扫描硬盘上的文件表,检查每个文件的最近访问日期/时刻。如果一个文件已有一个预定时期(通常为1至6个月)未曾用过,则该文件被归档,也即它被转送至例如磁带的辅助存储器上并从硬盘上删除。HSM通常与后备系统组合在一起。考虑一个具备HSM功能的磁带后备系统,其中非活动阈值设为3个月。后备过程周期地(通常至少每一周一次)运行一次并为给定文件检查超过3个月的最近访问日期。例如,后备系统保证在不同磁带上有3个后备复制文件(或等待随后具有3个复制文件的机会)并删除该文件。一旦需用该文件时,用户简单地将它自3个后备带中的一个带上复原即可。后备系统必须保证包含文件的归档复制文件的磁带不被重写。由于磁带是可卸下的,很容易替换和费用不贵,因此该方法对这问题提供了一个长期解决方法。一旦HSM系统将文件删除后,在初始盘上即找不到该文件。由于在搜索盘时找不到该文件的任何痕迹,因此以后当用户或应用程序决定需要访问该文件时,此方法显得不足。用户或应用程序就无法知道是否可自后备带上恢复该文件,因此应用程序可能随后会给出类似误导信息甚至致命错误那样的信息。理想情况是,该文件不是不留任何痕迹地被移走而应继续列在盘目录中(最好有一些手段用于标明它已移至后备的或辅助存储器中),但实际文件数据又不存在和占用盘空间。事实上,很多HSM系统具备此功能并称之为迁移。HSM系统通常在目录中留下文件标记,以及或者用一个包含可找到该迁移的文件位置的标记的小“存根”以代替文件数据,或者将数据完全删除而只留下一个长度为零的文件。HSM系统的一个增强功能称为反迁移,当用户或应用程序试图访问迁移的文件时,HSM系统能自动地将迁移的文件复原至初始盘上。显然,只当包含迁移的文件的辅助存储介质一直接在系统上时,这才可能。例如在投币式光盘自动电唱机这类“近线”设备中存放着迁移的数据,当用户请求访问文件时在文件被恢复之前此请求甚至可能会被暂时挂起,随后犹如该文件从未被迁移过那样允许继续执行该申请。上面描述的HSM技术应用于大量的同时只由一个用户使用的较小文件时是有效的。然而,考虑一个数据库系统,其中众多用户访问一个包含客户名称和地址记录或类似历史数据的单个大数据库文件。由于经常增加新客户记录和修改现有客户记录,因此该文件必须随时可供使用而绝对不是迁移对象。但是,这类文件通常具有许多其细节必须保存以供将来可能参考用的旧而不活动客户记录,而这些记录可能在相当长时间内不被访问。这类非活动记录所占用盘空间通常代表由整个文件所占空间的大部分。早已知道有一种随机访问文件,可供随机地向或自文件的任何部分写入或读出少量数据。当建立一个新的随机访问文件时,在写入数据之前该文件的长度为零。由于文件具有随机访问功能,第一批写入的数据不必一定放在偏移为0处(也即文件起始处),它可写入任何位置。例如,10字节数据可写入至自偏移1000开始的位置。该文件的逻辑长度为1010字节,但实际上只写入了10字节。有些操作系统处理这种情况时自动地用零或随意字节“填入”这1000个“不存在的”字节位置中,因而即使实际上只写入了10个字节也分配占用了1010个字节。先进操作系统,例如在网络文件服务器中使用的操作系统支持稀疏文件的概念,其中只为已实际地写入数据的文件分配磁盘空间。这通常用下述方法完成将文件分配表(其内容为盘上如何存储文件的映象)扩展以使每个用于标示特定文件数据的下一个位置的入口伴有一个数值,该数值用于标示数据的起始逻辑偏移。因此在上例中第一个入口标示数据起始位置在盘上X处及第一个字节是在文件中逻辑偏移1000处(在“正常”文件中逻辑偏移为0)。稀疏文件中从未写入数据的区域称为空洞。本专利技术的各个方面在后面独立的权利要求书中都有定义。本专利技术的优越特征在所附权利要求书中都有阐述。在下面结合附图描述的本专利技术最佳实施例中,有一个辅助数据库用于标示哪些数据块已访问过及何日访问过。未曾访问过的块即可归档并自盘文件中删除以减小存储需求量。可调整FAT(文件分配表)以将该文件作为稀疏文件处理从而完成删除操作。如对文件中已归档或迁移的部分提出读取请求,则系统在满足读取请求前先将所需文件部分反迁移。然而,新近访问过的记录早已存在于硬盘上,因此下次可以立即访问。因此不必将整个文件都保留在硬盘上而仍能使经常需要的记录随时准备提供使用。事实上,增加辅助数据库生命周期的非活动阈值可以扩展本方法。如果一个大的数据库文件中只访问少量记录,则不论访问的最新日期如何所有被访问的记录都可保持在硬盘上。而未曾访问过的记录则被删除以腾出盘空间。在此情况下,辅助数据库不必包含最近一次访问的日期或日期/时间。每隔一段长时期例如每隔一个月可将所有访问过的区域迁移及将辅助数据库清库。本方法可与前述应用中的部分文件存储法一起使用。于是要求辅助数据库附加地记录下来对文件的访问是写访问还是仅为读访问,而在写访问中数据可能被修改。前述应用中的部分文件后备法并不腾出硬盘空间而只使可能被重新访问的记录随时可供使用。下面将参照附图通过例子更详细地描述本专利技术,附图中有附图说明图1是一个带有磁带驱动器的个人计算机系统的框图;图2是用于阐述对文件的访问的图;图3是用于阐述根据本专利技术的文件访问操作的流程图;图4是类似于图2的图,用于阐述留在硬盘上的文件部分;图5是用于阐述根据本专利技术如由分层存储管理系统所实现那样的后备操作的流程图;图6是用于阐述对于已部分地归档的文件的读访问操作的流程图;图7是用于阐述在常规个人计算机的操作系统级别上的存储器映象一部分的图;以及图8是用于阐述本专利技术的方法中存储器映象的相应部分的图。图1显示一个包括一个中央处理单元(CPU)12,一个随机存取存储器(RAM)14和一个具有硬盘形式的大容量存储设备16的个人计算机(PC)10。个人计算机还具有一个磁带单元18,用于提供辅助存储器以供后备和归档之用。使用中随机存取存储器14中存放着送至中央处理单元12以控制其操作的指令。这些指令中的一部分直接来自操作系统,而有些指令则由计算机上运行的应用程序所启动。操作系统通常维持一个用于记录硬盘上每块数据的物理位置的文件分配表(FAT)。此外,操作系统还记录一个与每个文件有关的归档标志,当文件被修改时将该标志设置,本文档来自技高网...

【技术保护点】
一种访问存放于计算机系统中的数据的方法,所述计算机系设包括一个随机存取存储器、一个中央处理单元和大容量存储装置,所述方法包括以下步骤:将存放于随机存取存储器中的指令提供给中央处理单元以使处理单元生成至少一个读请求以准备访问存放于大容量存 储装置中的数据;该中央处理单元命令执行下列操作:标识需要访问的文件;标识文件中需要访问的文件部分;以及访问该文件部分;其特征在于建立一个用于标识准备访问的文件部分的辅助数据库的步骤。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:皮特布里安马尔库姆
申请(专利权)人:切恩尼高科有限公司
类型:发明
国别省市:GB[英国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1