本发明专利技术涉及对诸如磁盘(硬盘)的数字式存储器(11)中的数据的存储的优化。这是可行的,因为尽管数据的格式或大小已经改变,但是不同版本的数据通常具有相同或类似的内容。能够选出在一些点具有相同历史的数据重复的出现,以允许更有效地利用数字式存储器的存储容量。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用于根据数据历史优化数字式存储器中的数据的存储的方法和系统。
技术介绍
最近几十年用于数据压缩、数据库的算法、硬件,以及在用于数字式信息的优化存储的专用硬件出现了迅速发展。压缩算法和标准化数据库(normalized database)(一种数据库,其中相同的数据出现(occurrence)用引用地址或者其它标识数据代替)的共同特点是仅能够选出格式和大小(magnitude)相同的重复数据。因此,尽管数据在其实际应用中是相同或者类似的,但是如果数据仅在最小程度上不同,就不能完全地选出不同格式的相同数据的重复。这个缺陷也存在于已有的按照标准化数据库构建的存储系统和文件系统。具有共同历史的相互不类似的数据出现的示例是以其它方式压缩、加密或者处理导致完全或者部分地改变文件的数据文件的多个副本。在很多情况下,尽管文件已经改变,但是文件的实际应用不变。如果文件不能在改变之后直接使用,通常能够重建文件的更早的版本,并且接着使用重建的版本。在某些存储系统中,存储这些重复的数据出现将会造成存储容量的明显损失。
技术实现思路
本专利技术的目的是优化数字式存储器的存储能力的使用。该目的是通过选出具有共同历史的数据的重复出现,而不管该数据在实质上是否完全不同来实现的。当数据的格式或者大小改变但实际应用相同时,以及当能够从改变后的-->数据重建数据的更早版本时,这种分选是可能的。在标识信息辅助下,能够对数据序列进行区分,该标识信息例如名称、时间、更早的存储地址、校验和(由不同数学算法创建的针对数据的数字式“指纹”)或者此类信息的组合。当改变了所存储的数据的系统还更新版本历史作为对改变的响应时,能够识别并避免重复的出现,而不管数据出现之间的不相似性。当文件的内容发生了巨大改变以至于认为创建了新的第一代时,通常不适宜将例如数据文件的两个版本存储为单一实体。但许多数据改变是数据的格式改变而不是其内容或者所述内容的实际应用改变。例如,包含声音波形形式的数字式描述的所谓WAVE数据文件可用不同方式压缩、用不同方式加密以及进行调节音量,而其内容通常不曾经历改变。此外,更小的数据序列根据其历史在一些点可能是相同的,尽管作为这些序列的来源的更大的计算机单元作为整体在任何一点都不同。由此,尽管这些序列来源于作为整体缺少共同历史的更大的数据单元,并且尽管所述序列能够作为所述更大单元的一部分读回,更小的数据序列在多数情况下能够存储为单一序列。这使得在能够根据其历史区分相同数据的不同版本的存储系统的辅助下,能够节省大量的存储空间。当系统在包括例如测量设备、电信设备、计算机服务器或者个人计算机的一个或者更多个通信网络中用作存储单元时,其中多个外部单元通常共享大量的具有共同历史的数据,系统效率通常特别显著。更具体地,根据以下描述,本专利技术使得能够更有效地存储数字式数据:1.如果正被分选的数字式数据的序列小于以便捷的方式对所存储的数据重新读取而要求的单位时,在数字式存储器中存储信息,该信息涉及构成方便的完整数据单元的数据序列和数据序列应该如何连接在一起的顺序。2.在数字式存储器中存储涉及每个存储的数据序列的至少一个更早版本的标识信息。数据序列和标识可具有固定或可变的长度。还能够使用涉及实际存储在系统中的数据的版本的标识信息,例如以判断当在数字式存储器写入或读取时是否发生了错误。然而,这一点对于在本专利技术的根据数据历史选出重复的数据的出现不十分重要。3.当要存储新的数据序列时,所述数据的版本历史中的标识信息与更早-->存储的数据序列的版本历史中的标识信息相比较。所述比较包括通过保存的标识信息的媒介比较新序列的更早的版本和存储的序列的多个更早的版本。如果在一些点新序列的历史与更早存储的序列的历史一致,不保存新数据序列。代替的,存储针对更早存储的数据序列的引用。4.然而,通常在点3中存储这个新数据序列的历史,尽管序列实质上没有存储。这仅是为了使系统更有效以及对从系统重新读取数据的简化。5.如果新数据序列的历史标识信息在任何点不能与涉及更早存储的数据序列的历史信息一致,则在数字式存储器中存储新数据序列。新数据序列的历史也被存储。6.当从系统读取更小的数据序列时,选择基于历史标识信息。系统接着试图识别存储的组成相关的在后版本的所需要的数据的序列。接着从数字式存储器中读出所述序列。7.当读取由多个更小的序列组成的更大的数据单元时,首先读取存储了更大单元的历史的数字式存储器。所述历史示出能够一起重建单元的序列以及所述序列组合时必须采用的顺序。接着读取相关的更小的数据序列,并合并为更大的数据单元。8.当希望时(例如在多种形式的数据压缩和加密的情况下),在很多情况下能够实现从之后的数据版本恢复更早的数据版本。例如,相关的算法或硬件能够以分步的方式从之后的版本重建更早的数据版本,之后涉及所期望的更早版本的标识信息与当前重建版本的标识信息比较。如果标识信息一致,则能够认为已经重建了更早的数据版本。本专利技术方法还具备其它优点。例如,存储系统能够随后对已经存储的数据进行压缩,或者对已经存储的数据进行解压缩并且按照比之前的情形更有效的方法再次压缩,而无需改变涉及此数据的更早的标识信息,并且无需使信息的重新读取复杂化。当使用本专利技术作为介质时,例如用于一个或更多个外部磁盘(硬盘)的数据备份复制,系统能够存储针对数据序列的更早版本的地址信息,例如扇区信息,这也支持根据本专利技术的简单的读取或恢复。更早的数据版本的地址信息接着优选地存储在单独的数字式存储器中,其中涉及更小的数据序列的标识信息与所述地址信息耦合。-->下面将参照附图详细描述根据本专利技术的方法,其中:图1是示出如何生成数据的版本标识信息的示意和简化图;图2是示出如何根据历史信息选出重复的数据的出现的示意和简化图;以及图3示出在数字式磁盘单元的控制卡中实施的方法。具体实施方式图1示出如何生成数据的版本标识信息。更大的数据单元由存储在数字式存储器(11)中的多个数据序列组成。为每个更小的数据序列创建(12)与涉及序列的当前版本的信息一起存储在另一数字式存储器(112)中的标识信息。在更大的完整数据单元的这一版本中包括的较小数据序列的编译列表(13)保存在数字式存储器(111)中。在点(14)改变整个或者部分数据单元,结果产生新的完全不同的数据单元(15)。对这个新的更大的数据单<本文档来自技高网...
【技术保护点】
一种用于优化数字式信息的存储的方法和系统,其特征在于:基于具有全部或者部分共同版本历史的数据选出这种数据的过多出现;其中甚至在数据完全或者部分不同时,如果在已经创建了存储版本的所述数据的更早版本中发现相似性,也能够选出所述数据的出现;其中通过处理和保持具有固定或者可变长度的历史列表选出数据的冗余出现,在所述历史列表中存储针对所存储的数据的更早版本的标识信息;其中如果涉及数据的出现的历史中的一个或者更多个点与一个或者更多个其它数据出现的历史中的一个或者更多个点一致,则仅仅存储第一出现;以及其中针对分类为冗余的数据的出现,保存对对应存储的数据的引用。
【技术特征摘要】
【国外来华专利技术】SE 2006-6-16 0601336-11.一种用于优化数字式信息的存储的方法和系统,其特征在于:基
于具有全部或者部分共同版本历史的数据选出这种数据的过多出现;其中
甚至在数据完全或者部分不同时,如果在已经创建了存储版本的所述数据
的更早版本中发现相似性,也能够选出所述数据的出现;其中通过处理和
保持具有固定或者可变长度的历史列表选出数据的冗余出现,在所述历史
列表中存储针对所存储的数据的更早版本的标识信息;其中如果涉及数据
的出现的历史中的一个或者更多个点与一个或者更多个其它数据出现的
历史中的一个或者更多个点一致,则仅仅存储第一出现;以及其中针对分
类为冗余的数据的出现,保存对对应存储的数据的引用。
2.根据权利要求1所述的方法,其特征在于,冗余数据的选出或者
对数据的搜索是通过针对与存储的数据版本完全不同的数据版本的标识
信息的确定设置来处理的。
3.根据权利要求1所述的方法和系统,其特征在于,数据的重读取
基于涉及所述数据的一个或者更多个更早版本的标识信息。
4.根据权利要求1所述的方法和系统,其特征在于,...
【专利技术属性】
技术研发人员:托比亚斯埃克布姆,
申请(专利权)人:托比亚斯埃克布姆,
类型:发明
国别省市:SE[瑞典]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。