通过从驻留在内容关联滤筛中的基本数据单元导出数据的数据的无损简化制造技术

技术编号:16309299 阅读:22 留言:0更新日期:2017-09-27 02:59
本公开内容涉及较大和极大的数据集上的无损数据简化并且同时提供高数据摄取和数据取回速率。一些实施例可以生成数据组块的无损简化表示,其中所述无损简化表示包括对存储在内容关联滤筛中的一个或多个基本数据单元的引用并且可选地还有对重建程序的描述,所述重建程序在被应用于所述一个或多个基本数据单元时得到所述数据组块。随后可以通过网络把数据组块的无损简化表示传送到另一台计算机。

Lossless reduction of data derived from a basic data unit residing in a content associated filter

The present disclosure relates to lossless data reduction on larger and larger data sets, and provides high data uptake and data retrieval rates simultaneously. Some embodiments can generate data block lossless simplified representation wherein the lossless simplifying representation includes the content stored in the associated screen on one or more of the basic units of data reference and optionally also to reconstruct the description of the procedure, the reconstruction program is applied to the one or more the basic unit of data obtained by the data block. Subsequently, a lossless simplified representation of the data block can be transmitted to another computer over the network.

【技术实现步骤摘要】
【国外来华专利技术】通过从驻留在内容关联滤筛中的基本数据单元导出数据的数据的无损简化
本公开内容涉及数据存储、取回和通信。更具体来说,本公开内容涉及使用内容关联滤筛(content-associativesieve)的数据的无损简化。
技术介绍
当今的信息时代以巨量数据的产生、捕获和分析为标志。新的数据从多样的来源产生,这方面的实例包括购买交易记录、企业及政府记录和通信、电子邮件、社交媒体发帖、数字图片和视频、机器日志、来自嵌入式设备的信号、数字传感器、蜂窝电话全球定位卫星、航天卫星、科学计算以及大挑战科学。数据以多样的格式生成,其中得许多数据是无结构的,并且不适合输入到传统的数据库中。企业、政府和个人以前所未有的速度生成数据,并且在存储、分析和传送该数据方面遇到困难。为了保存累积的数据,每年在购买存储系统方面要花费数百亿美元。在用以处理数据的计算机系统上也要花费类似地巨大金额。在最现代的计算机和存储系统中,在被组织成存储分级结构的多层存储上容纳和部署数据。需要被经常并且快速地存取的数据被放置在最快速但是也最昂贵的层级,大多数数据(包括用于备份的拷贝)则优选地被存储在最密集并且最便宜的存储介质中。最快速并且最昂贵的数据存储层级是计算机系统的非易失性随机存取存储器或RAM,其驻留在紧邻微处理器核心的位置并且为随机数据存取给出最低等待时间和最高带宽。逐渐地更密集并且更便宜但是也更慢的各层(其对于随机存取具有逐渐地更高的等待时间和更低的带宽)包括非易失性固态存储器或闪存存储装置、硬盘驱动器(HDD)并且最后是磁带驱动器。为了更加有效地存储和处理不断增加的数据,计算机行业持续对数据存储介质的密度和速度以及对计算机的处理能力作出改进。但是数据量的增加速度远远超出计算和数据存储系统的容量和密度的改进。来自2014年的数据存储行业的统计数据表明,在过去的几年里所产生并捕获的新数据构成全世界至今所捕获的数据的一大部分。全世界至今为止所产生的数据的数量估计超出多个泽字节(一个泽字节是1021个字节)。数据的大量增加对于必须可靠地存储、处理和传送该数据的数据存储、计算和通信系统提出了高要求。这就促使更多地使用无损数据简化或压缩技术来紧缩(compact)数据,从而能够以更低的成本来存储并且同样高效地处理和传送数据。已经出现了多种无损数据简化(reduction)或压缩技术,并且近年来发生了演进。这些技术对数据进行检查以寻找数据中的某种形式的冗余,并且利用该冗余在没有任何信息损失的情况下实现数据足迹(datafootprint)的简化。对于期望利用数据中的特定形式的冗余的给定技术,所实现的数据简化的程度取决于在数据中找到该特定形式的冗余的频度。所希望的是数据简化技术能够灵活地发现并且利用数据中的任何可用的冗余。由于数据源自多种来源和环境并且具有多种格式,因此对于用以应对这一多样数据的通用无损数据简化技术的开发和采用的兴趣很大。除了字母表之外通用数据简化技术不需要关于输入数据的先验知识;因此通用数据简化技术一般可以被应用于任何和所有数据,而不需要事先知道数据的结构和统计分布特性。可以被用来比较数据压缩技术的不同实现方式的优度(goodness)量度包括在目标数据集上实现的数据简化的程度,实现压缩或简化的效率,以及解压缩并取回数据以供未来使用的效率。效率量度评估解决方案的性能和成本有效性。性能量度包括新数据可以被消耗并简化的吞吐量或摄取速率,对输入数据进行简化所需要的等待时间或时间,数据可以被解压缩并取回的吞吐量或速率,以及解压缩并取回数据所需要的等待时间或时间。成本量度包括任何所需的专用硬件组件的成本,比如微处理器核心或微处理器利用(中央处理单元利用),专用暂时存储器的数量和存储器带宽,以及对于保存数据的各个存储层级所需要的存取次数和带宽。应当提到的是,在简化数据足迹的同时提供高效且快速的压缩以及解压缩和取回不仅具有降低存储和传送数据的总体成本的好处,而且还具有高效地允许对于数据的后续处理的好处。当前在业内所使用的许多通用数据压缩技术是从在1977年由AbrahamLempel和JacobZiv开发的Lempel-Ziv压缩方法导出的,例如参见JacobZiv和AbrahamLempel的“AUniversalAlgorithmforSequentialDataCompression(用于顺序数据压缩的通用算法)”,IEEEtransactionsoninformationtheory,Vol.IT-23,No.3,1977年5月。这种方法成为允许通过因特网的高效数据传输的基础。Lempel-Ziv方法(也就是LZ77、LZ78及其变体)通过用引用替换串的重复出现而简化数据足迹,其中所述引用是针对在顺序呈现的输入数据流的滑动窗口内所见到的所述串的先前的出现。在消耗来自输入数据流的给定数据块的新鲜串时,这些技术搜索过先前在直到窗口长度的当前和先前块内所见到的所有串。如果所述新鲜串是重复,则用对原始串的后向引用将其替换。如果通过重复串所消除的字节数目大于后向引用所需的字节数目,则实现了数据的简化。为了搜索过在窗口中所见到的所有串,并且为了提供最大串匹配,这些技术的实现方式采用多种方案,其中包括迭代扫描以及建立包含在窗口中见到的所有串的字典的临时簿记结构。在消耗新的输入字节以组装新鲜串时,这些技术或者扫描过现有窗口中的所有字节,或者对串的字典进行引用(随后是一些计算)以便判定是否找到重复并且用后向引用将其替换(或者判定是否需要对字典进行添加)。Lempel-Ziv压缩方法常常伴随有应用于数据的第二优化,其中基于其在正被压缩的数据块中的出现频率或概率对源符号进行动态重编码,所述动态重编码常常采用可变宽度编码方案从而对于频率更高的符号使用长度更短的代码,从而导致数据的简化。例如参见DavidA.Huffman的“AMethodfortheConstructionofMinimum-RedundancyCodes(用于构造最小冗余代码的方法)”,ProceedingsoftheIRE–InstituteofRadioEngineers,1952年9月,pp.1098-1101。这种技术被称作Huffman重编码,并且通常需要第一遍经过数据以计算频率以及第二遍经过数据以实际编码数据。围绕这一主题的几种变型也在使用之中。使用这些技术的一个实例是一种被称作“Deflate”的方案,该方案将Lempel-ZivLZ77压缩方法与Huffman重编码相组合。Deflate提供了压缩流数据格式规范,所述规范规定一种用于把字节序列表示成(通常更短的)比特序列的方法,以及一种用于把所述比特序列打包成字节的方法。Deflate方案最初由PKWARE,Inc.的PhillipW.Katz设计用于PKZIP归档实用程序。例如参见PhillipW.Katz的标题为“Stringsearcher,andcompressorusingsame(串搜索器以及使用串搜索器的压缩器)”的美国专利5,051,745,1991年9月24日。美国专利5,051,745描述了一种用于针对预定目标串(输入串)搜索符号矢量(窗口)的方法。所述解决方案采用具有针对窗口中的每一个符号的指本文档来自技高网...
通过从驻留在内容关联滤筛中的基本数据单元导出数据的数据的无损简化

【技术保护点】
一种用于实施无损数据简化的方法,所述方法包括:基于数据组块识别一个或多个基本数据单元,其中所述识别包括使用数据组块的内容导航经过基于基本数据单元的内容组织基本数据单元的数据结构;基于数据组块以及所述一个或多个基本数据单元确定重建程序,从而能够通过对所述一个或多个基本数据单元应用所述重建程序而重建数据组块;以及生成数据组块的无损简化表示,其中所述无损简化表示包括对所述一个或多个基本数据单元中的每一个基本数据单元的引用以及对重建程序的描述。

【技术特征摘要】
【国外来华专利技术】2014.12.27 US 62/097,070;2015.04.13 US 14/685,191;1.一种用于实施无损数据简化的方法,所述方法包括:基于数据组块识别一个或多个基本数据单元,其中所述识别包括使用数据组块的内容导航经过基于基本数据单元的内容组织基本数据单元的数据结构;基于数据组块以及所述一个或多个基本数据单元确定重建程序,从而能够通过对所述一个或多个基本数据单元应用所述重建程序而重建数据组块;以及生成数据组块的无损简化表示,其中所述无损简化表示包括对所述一个或多个基本数据单元中的每一个基本数据单元的引用以及对重建程序的描述。2.根据权利要求1所述的方法,其中,所述数据结构是树数据结构,其中导航经过所述数据结构包括遍历树数据结构中的边缘序列,其中所述边缘序列中的每一个边缘对应于基于数据组块的内容确定的名称的一部分,并且其中被用来导航到树数据结构中的一节点的所述名称的每一个部分对应于存在于以该节点为根部的子树内的所有基本数据单元中的内容。3.根据权利要求1所述的方法,其中,所述使用数据组块的内容导航经过组织基本数据单元的数据结构包括:基于数据组块的内容确定名称;以及通过使用所述名称的相继部分导航经过所述数据结构。4.根据权利要求1所述的方法,其中,所述生成数据组块的无损简化表示是响应于确定(i)对所述一个或多个基本数据单元的引用的大小与(ii)对重建程序的描述的大小的和小于数据组块的大小的阈值分数而实施的;并且其中,所述方法还包括响应于确定(i)对所述一个或多个基本数据单元的引用的大小与(ii)对重建程序的描述的大小的和大于或等于数据组块大小的所述阈值分数,把数据组块作为新的基本数据单元添加在组织基本数据单元的数据结构中,以及生成数据组块的第二无损简化表示,其中所述第二无损简化表示包括对所述新的基本数据单元的引用。5.根据权利要求1所述的方法,其中,所述对重建程序的描述规定变换序列,所述变换序列在被应用于所述一个或多个基本数据单元时得到所述数据组块。6.根据权利要求1所述的方法,其中,所述对重建程序的描述包括对存储在重建程序存储库中的第二重建程序的引用,其中所述第二重建程序规定变换序列,所述变换序列在被应用于所述一个或多个基本数据单元时得到所述数据组块。7.根据权利要求1所述的方法,其中,所述对重建程序的描述包括对存...

【专利技术属性】
技术研发人员:H·莎朗潘尼
申请(专利权)人:阿斯卡瓦公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1