The present disclosure relates to lossless data reduction on larger and larger data sets, and provides high data uptake and data retrieval rates simultaneously. Some embodiments can generate data block lossless simplified representation wherein the lossless simplifying representation includes the content stored in the associated screen on one or more of the basic units of data reference and optionally also to reconstruct the description of the procedure, the reconstruction program is applied to the one or more the basic unit of data obtained by the data block. Subsequently, a lossless simplified representation of the data block can be transmitted to another computer over the network.
【技术实现步骤摘要】
【国外来华专利技术】通过从驻留在内容关联滤筛中的基本数据单元导出数据的数据的无损简化
本公开内容涉及数据存储、取回和通信。更具体来说,本公开内容涉及使用内容关联滤筛(content-associativesieve)的数据的无损简化。
技术介绍
当今的信息时代以巨量数据的产生、捕获和分析为标志。新的数据从多样的来源产生,这方面的实例包括购买交易记录、企业及政府记录和通信、电子邮件、社交媒体发帖、数字图片和视频、机器日志、来自嵌入式设备的信号、数字传感器、蜂窝电话全球定位卫星、航天卫星、科学计算以及大挑战科学。数据以多样的格式生成,其中得许多数据是无结构的,并且不适合输入到传统的数据库中。企业、政府和个人以前所未有的速度生成数据,并且在存储、分析和传送该数据方面遇到困难。为了保存累积的数据,每年在购买存储系统方面要花费数百亿美元。在用以处理数据的计算机系统上也要花费类似地巨大金额。在最现代的计算机和存储系统中,在被组织成存储分级结构的多层存储上容纳和部署数据。需要被经常并且快速地存取的数据被放置在最快速但是也最昂贵的层级,大多数数据(包括用于备份的拷贝)则优选地被存储在最密集并且最便宜的存储介质中。最快速并且最昂贵的数据存储层级是计算机系统的非易失性随机存取存储器或RAM,其驻留在紧邻微处理器核心的位置并且为随机数据存取给出最低等待时间和最高带宽。逐渐地更密集并且更便宜但是也更慢的各层(其对于随机存取具有逐渐地更高的等待时间和更低的带宽)包括非易失性固态存储器或闪存存储装置、硬盘驱动器(HDD)并且最后是磁带驱动器。为了更加有效地存储和处理不断增加的数据,计算机行业持续对数据存 ...
【技术保护点】
一种用于实施无损数据简化的方法,所述方法包括:基于数据组块识别一个或多个基本数据单元,其中所述识别包括使用数据组块的内容导航经过基于基本数据单元的内容组织基本数据单元的数据结构;基于数据组块以及所述一个或多个基本数据单元确定重建程序,从而能够通过对所述一个或多个基本数据单元应用所述重建程序而重建数据组块;以及生成数据组块的无损简化表示,其中所述无损简化表示包括对所述一个或多个基本数据单元中的每一个基本数据单元的引用以及对重建程序的描述。
【技术特征摘要】
【国外来华专利技术】2014.12.27 US 62/097,070;2015.04.13 US 14/685,191;1.一种用于实施无损数据简化的方法,所述方法包括:基于数据组块识别一个或多个基本数据单元,其中所述识别包括使用数据组块的内容导航经过基于基本数据单元的内容组织基本数据单元的数据结构;基于数据组块以及所述一个或多个基本数据单元确定重建程序,从而能够通过对所述一个或多个基本数据单元应用所述重建程序而重建数据组块;以及生成数据组块的无损简化表示,其中所述无损简化表示包括对所述一个或多个基本数据单元中的每一个基本数据单元的引用以及对重建程序的描述。2.根据权利要求1所述的方法,其中,所述数据结构是树数据结构,其中导航经过所述数据结构包括遍历树数据结构中的边缘序列,其中所述边缘序列中的每一个边缘对应于基于数据组块的内容确定的名称的一部分,并且其中被用来导航到树数据结构中的一节点的所述名称的每一个部分对应于存在于以该节点为根部的子树内的所有基本数据单元中的内容。3.根据权利要求1所述的方法,其中,所述使用数据组块的内容导航经过组织基本数据单元的数据结构包括:基于数据组块的内容确定名称;以及通过使用所述名称的相继部分导航经过所述数据结构。4.根据权利要求1所述的方法,其中,所述生成数据组块的无损简化表示是响应于确定(i)对所述一个或多个基本数据单元的引用的大小与(ii)对重建程序的描述的大小的和小于数据组块的大小的阈值分数而实施的;并且其中,所述方法还包括响应于确定(i)对所述一个或多个基本数据单元的引用的大小与(ii)对重建程序的描述的大小的和大于或等于数据组块大小的所述阈值分数,把数据组块作为新的基本数据单元添加在组织基本数据单元的数据结构中,以及生成数据组块的第二无损简化表示,其中所述第二无损简化表示包括对所述新的基本数据单元的引用。5.根据权利要求1所述的方法,其中,所述对重建程序的描述规定变换序列,所述变换序列在被应用于所述一个或多个基本数据单元时得到所述数据组块。6.根据权利要求1所述的方法,其中,所述对重建程序的描述包括对存储在重建程序存储库中的第二重建程序的引用,其中所述第二重建程序规定变换序列,所述变换序列在被应用于所述一个或多个基本数据单元时得到所述数据组块。7.根据权利要求1所述的方法,其中,所述对重建程序的描述包括对存...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。