数据压缩制造技术

技术编号:16082552 阅读:30 留言:0更新日期:2017-08-25 16:53
本发明专利技术涉及数据压缩。该数据压缩的方法可以包括:选择数据集内出现的符号串,所述符号串是一个或多个字符;生成与所述符号串在所述数据集内的各个位置相对应的符号串码;对于所述数据集内出现的任何其他符号串,重复所述选择符号串以及所述生成符号串码,以产生任何相应的其他符号串码;以及通过组合各个符号串码来生成压缩数据码。

【技术实现步骤摘要】
数据压缩相关申请的交叉引用本申请是优先权日为2006年06月19日、国际申请日为2007年06月18日、国际申请号为PCT/US2007/014138、中国专利申请号为200780023129.2、专利技术名称为“数据压缩”的专利申请的分案申请。
本专利申请涉及数据压缩。
技术介绍
近年来,人们通过网络共享数据变得越来越流行;然而,数据传输在带宽利用方面具有一定成本。所以,例如,大量数据常常被压缩。压缩也可以用于存储数据到磁的或其它介质上。附图说明主题在说明书的结论部分被特别地指出并清楚地请求保护。然而,所请求保护的主题,包括其组织和操作方法以及目的、特征和优点,可以通过结合附图参考以下的详细说明而被最好地理解,其中:图1是说明根据所请求保护的主题的一个实施例的示意图。图2示出一个示例性系统。具体实施方式在以下的详细说明中,许多特定细节被阐述,以便提供对于所请求保护的主题的透彻的理解。然而,本领域技术人员将理解,所请求保护的主题可无需这些特定细节而实施。在其它实例中,对熟知的方法、过程、部件和/或电路没有进行详细描述,以免使所请求保护的主题模糊。随后的具体实施方式的某些部分以算法和/或对存储在计算系统内——诸如在计算机和/或计算系统存储器内——的数据比特和/或二进制数字信号的操作的符号表示的形式而给出。这些算法描述和/或表示是由数据处理领域技术人员用来把他们的工作内容传达给该领域其它技术人员的技术。在这里并且通常地,算法被认为是自相一致的运算序列和/或导致期望结果的类似处理。运算和/或处理可包括对物理量的物理操作。典型地——虽然不一定必须,这些量可以采取能够被存储、传送、组合、比较和/或操纵的电信号和/或磁信号的形式。主要由于普遍的使用,把这些信号称为比特、数据、数值、单元、符号、字符、术语、数目、数字等等有时被证明是方便的。然而,应当理解,所有这些以及类似的术语是与适当的物理量相关联的,并且仅仅是方便的标签。除非专门阐述,否则正如从以下的讨论看到的,将会意识到在本说明书的讨论中,利用诸如“处理”、“计算”、“确定”等等的术语指的是诸如计算机或类似的电子计算设备那样的计算平台的动作和/或处理,所述计算平台在计算平台的处理器、存储器、寄存器和/或其它信息存储、传输和/或显示设备内操纵和/或变换被表示为电和/或磁的物理量和/或其它物理量的数据。此后描述压缩数据的方法的一个特定实施例,虽然所请求保护的主题在范围上不限于这方面。选择在要被压缩的数据集或数据组内出现的一个符号串。生成符号串码,其指示符号串在数据内的一个或多个位置。同样地,对于数据内的另外的符号串,这个过程可以重复进行。各个符号串码然后可以组合以形成数据码。得到的数据码是该数据集或数据组的压缩形式。该数据码可根据需要被发送或存储。一个特定实施例可以通过接连地识别所选择的符号串出现的位置、确定在所选择的符号串的出现之间的距离并生成包括表示所选择的串在数据内的位置的距离的码而被实行,虽然所请求保护的主题在范围上不限于这方面。同样地,在这里,符号可包括任何类型、形式或格式的数据。例如,这可包括记录、文件、扇区、集群、组和/或它们的部分。而且,符号可包括字、字节、比特、文本、字符等等。符号串可包括单个或多个符号。同样地,它们在长度上可以是固定的或可变的。对于一个特定实施例,符号串可以按特定的或预定的次序被编码,虽然这同样仅仅是一个示例性实施例并且所请求保护的主题在范围上不限于这方面。替换地或另外,不同于按次序编码,符号串可以以任何次序被编码。在这样的实施例中,符号串码例如可以加上指示特定的符号串的某些其它码作为前缀,虽然所请求保护的主题在范围上当然不限于这个示例性实施例。同样地,对于一个特定实施例,所采用的方法可以在模式之间切换,所述模式诸如其中符号串码按预定的次序被发送或存储的模式,和其中这个次序没有被预先确定、但其中表示相应的符号串的某些码在符号串码之前或作为符号串码的一部分而被发送的模式。如果符号串包括符号串的重复,则符号串码可包括指示符号串的一连串出现的存在的数据。从压缩的观点来看,指示一连串出现的数据的存储或传输通常比单独发送这样的出现更有效率。在一个特定实施例中,可以通过行程长度编码(runlengthcoding)而将位置用信号通知(signal),但其它编码方法也可能代替或作为附加,正如下面更详细地描述的那样。同样地,编码可以至少部分地是依赖于上下文的。例如,如果要被编码的数据集或数据组的长度是事先已知的,则它可以作为第一符号串码的前缀。至少部分地依赖于实施例的细节,最后的符号串的位置可以被确定而无需发送或存储相应于该特定的符号串的附加信息,同样如下面更详细地描述的那样。而且,关于所有的或某些符号串的辅助信息或附加信息也可以被包括在数据码中。在一个特定实施例中,与特定的符号串有关的附加信息可以在相应的符号串码的结尾或否则与其相关联地被发送。替换地,附加信息可以在发送或存储符号串码后被发送或存储。更一般地,附加信息可以在任何时间或以任何方式被提供,以使得译码器能够把该信息与相应的符号串相关联。例如,要被使用的符号串的列表或表可以被预先确定或预定义。替换地或另外,例如,它可以至少部分基于在要压缩的数据中出现的符号串而被编制。在特定的数据集或数据组的符号串码被存储或被发送后,可以使用结尾码(endcode)。在数据集中存在的符号串——除最后的符号串外——的位置被存储或传送后,在至少某些实施例中,可以确定最后的符号串的位置。因此,编码器可以省略存储或传送这样的最后的符号串的位置,正如此后更详细地描述的那样。同样地,由所请求保护的主题覆盖的实施例包括例如能够实施任何这样的方法的计算机程序,和/或能够实施这样的方法的计算机系统。实施例还包括能够实行如下面描述的方法的硬件和/或软件编码器,以及能够从代表数据的压缩的数据码重建原始的数据集或数据组的硬件和/或软件译码器。这些以及许多其它实施例将在所请求保护的主题的范围内。在所描述的至少某些实施例中,压缩是无损的,虽然所请求保护的主题在范围上不限于这方面。例如,在某些实施例中,数据码可包括关于被包含在要被压缩的数据内的那些符号串的位置的信息。在这个特定的情形中,要被压缩的相关数据的任何组、集或部分被视作字符或其它符号的有序序列。如果这样的数据代表例如文本,则各个符号可包括一个或多个文本字符,但当然这不是必须的。许多其它的符号也可以被表示。更一般地,符号可以由字节或其它大小的数据组来表示。也有可能使用较长的或短的数据部分,它可以或不一定适合于在例如字节或数字字长度内。如果数据以二进制形式表示,则符号可以取决于具体的实施例而被表示为单个比特或具有固定或可变长度的多个比特。作为一个例子,诸如被存储为文件、记录或数据的其它单一联系之类的数据可以视作整体,或替代地被划分或分割成合适的长度,该长度对于符号组——在这里被称为符号串——足够长,使之可以以某个压缩效率被编码,但足够短到可以方便地处理。下面将更详细地描述各种方法。初始地,例如在一个特定实施例中,建立可在数据集内出现的符号串的列表或表。加到这个列表的可以是至少部分基于关于数据的统计量的现有知识或信息的符号串的初始列表。为提供某些简单的例子,例如对于本文档来自技高网...
数据压缩

【技术保护点】
一种压缩数据集的方法,包括:选择所述数据集内出现的符号串,所述符号串是一个或多个字符;生成与所述符号串在所述数据集内的各个位置相对应的符号串码,如果符号串包括符号串的重复,则符号串码包括指示所述符号串的一连串出现的存在的数据;对于所述数据集内出现的任何其他符号串,重复所述选择符号串以及所述生成符号串码,以产生任何相应的其他符号串码;以及通过组合各个符号串码来生成压缩数据码。

【技术特征摘要】
2006.06.19 US 11/425,1371.一种压缩数据集的方法,包括:选择所述数据集内出现的符号串,所述符号串是一个或多个字符;生成与所述符号串在所述数据集内的各个位置相对应的符号串码,如果符号串包括符号串的重复,则符号串码包括指示所述符号串的一连串出现的存在的数据;对于所述数据集内出现的任何其他符号串,重复所述选择符号串以及所述生成符号串码,以产生任何相应的其他符号串码;以及通过组合各个符号串码来生成压缩数据码。2.根据权利要求1所述的方法,还包括:对于所述各个符号串码中的一个符号串码,使用行程长度编码对所述符号串的各个位置进行编码。3.根据权利要求1所述的方法,还包括:以组结尾EOG符号结束所述符号串码。4.根据权利要求1所述的方法,其中所述生成符号串码包括:确定所述符号串在所述数据集内的出现之间的距离,以及基于所述距离生成所述符号串码。5.根据权利要求4所述的方法,其中所述生成符号串码包括:当先前已编码的符号串的位置被省略时,确定所述符号串在所述数据集内的出现之间的所述距离。6.根据权利要求l所述的方法,其中所述选择符号串包括从具有已知长度的数据集中选择符号串,并且其中所述生成符号串码包括避免对最后一个符号串进行编码。7.根据权利要求1所述的方法,其中所述选择符号串包括从具有标准长度的数据集中选择符号串。8.根据权利要求1所述的方法,还包括:将所述数据集的长度作为所述压缩数据码的前缀,或者在编码之前提供所述数据集的所述长度。9.根据权利要求1所述的方法,还包括:采用所述符号串的预定次序,或者相对于所述符号串的出现频率对所述符号串进行排序。10.根据权利要求1所述的方法,其中所述选择符号串包括选择具有固定的预定义形式的符号串,或者选择形式上具有灵活性的符号串。11.根据权利要求1所述的方法,还包括:利用所述符号串作为所述符号串码的前缀或者后缀。12.根据权利要求1所述的方法,还包括:在第一模式期间以预定次序生成所述符号串码;以及在第二模式期间将所述符号串嵌入到所述压缩数据码中。13.根据权利要求1所述的方法,还包括:将“不再有组”信号解释为所述数据集的结尾。14.根据权利要求1所述的方法,还包括:将关于所述符号串的附加信息与所述符号串组合以形成新的符号串。15.根据权利要求l所述的方法,还包括:存储所述压缩数据码,或者通过通信信道发送所述压缩数据码。16.一种压缩数据集的设备,包括:用于选择所述数据集内出现的符号串的装置,所述符号串...

【专利技术属性】
技术研发人员:D·M·门罗
申请(专利权)人:埃塞克斯PA有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1