数据压缩制造技术

技术编号:5390641 阅读:184 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及压缩相关数据组的方法。所述方法执行以下步骤:(a)选择在要被压缩的数据内出现的符号串,并生成指示符号串在要被压缩的数据组内的一个或多个位置的符号串码;(b)对于在组内出现的另外的符号串,接连地重复(a);以及(c)把各个符号串码组合成压缩数据码。

【技术实现步骤摘要】
【国外来华专利技术】
本专利申请涉及数据压缩
技术介绍
近年来,人们通过网络共享数据变得越来越流行;然而,数据传输在带宽利用方面具有一定成本。所以,例如,大量数据常常被压缩。 压缩也可以用于存储数据到磁的或其它介质上。附图说明主题在说明书的结论部分被特别地指出并清楚地请求保护。然而, 所请求保护的主题,包括其组织和操作方法以及目的、特征和优点, 可以通过结合附图参考以下的详细说明而被最好地理解,其中图l是说明根据所请求保护的主题的一个实施例的示意图。具体实施例方式在以下的详细说明中,许多特定细节被阐述,以便提供对于所请 求保护的主题的透彻的理解。然而,本领域技术人员将理解,所请求 保护的主题可无需这些特定细节而实施。在其它实例中,对熟知的方 法、过程、部件和/或电路没有进行详细描述,以免使所请求保护的主 题模糊。随后的具体实施方式的某些部分以算法和/或对存储在计算系统 内——诸如在计算机和/或计算系统存储器内——的数据比特和/或二 进制数字信号的操作的符号表示的形式而给出。这些算法描述和/或表它技术人员的技术。在这里并且通常地,算法被认为是自相一致的运算序列和/或导致期望结果的类似处理。运算和/或处理可包括对物理量 的物理操作。典型地——虽然不一定必须,这些量可以采取能够被存 储、传送、组合、比较和/或操纵的电信号和/或磁信号的形式。主要由 于普遍的使用,把这些信号称为比特、数据、数值、单元、符号、字 符、术语、数目、数字等等有时被证明是方便的。然而,应当理解, 所有这些以及类似的术语是与适当的物理量相关联的,并且仅仅是方 便的标签。除非专门阐述,否则正如从以下的讨论看到的,将会意识 到在本说明书的讨论中,利用诸如"处理"、"计算"、"确定"等等的术 语指的是诸如计算机或类似的电子计算设备那样的计算平台的动作和 /或处理,所述计算平台在计算平台的处理器、存储器、寄存器和/或其 它信息存储、传输和/或显示设备内操纵和/或变换被表示为电和/或磁 的物理量和/或其它物理量的数据。此后描述压缩数据的方法的 一个特定实施例,虽然所请求保护的 主题在范围上不限于这方面。选择在要被压缩的数据集或数据组内出 现的一个符号串。生成符号串码,其指示符号串在数据内的一个或多 个位置。同样地,对于数据内的另外的符号串,这个过程可以重复进 行。各个符号串码然后可以组合以形成数据码。得到的数据码是该数 据集或数据组的压缩形式。该数据码可根据需要被发送或存储。一个特定实施例可以通过接连地识别所选择的符号串出现的位 置、确定在所选择的符号串的出现之间的距离并生成包括表示所选择 的串在数据内的位置的距离的码而被实行,虽然所请求保护的主题在 范围上不限于这方面。同样地,在这里,符号可包括任何类型、形式 或格式的数据。例如,这可包括记录、文件、扇区、集群、组和/或它 们的部分。而且,符号可包括字、字节、比特、文本、字符等等。符 号串可包括单个或多个符号。同样地,它们在长度上可以是固定的或 可变的。对于一个特定实施例,符号串可以按特定的或预定的次序被编码, 虽然这同样仅仅是一个示例性实施例并且所请求保护的主题在范围上 不限于这方面。替换地或另外,不同于按次序编码,符号串可以以任何次序被编码。在这样的实施例中,符号串码例如可以加上指示特定 的符号串的某些其它码作为前缀,虽然所请求保护的主题在范围上当 然不限于这个示例性实施例。同样地,对于一个特定实施例,所采用 的方法可以在模式之间切换,所述模式诸如其中符号串码按预定的次 序被发送或存储的模式,和其中这个次序没有被预先确定、但其中表 示相应的符号串的某些码在符号串码之前或作为符号串码的一部分而 被发送的模式。如果符号串包括符号串的重复,则符号串码可包括指示符号串的 一连串出现的存在的数据。从压缩的观点来看,指示一连串出现的数 据的存储或传输通常比单独发送这样的出现更有效率。在一个特定实施例中,可以通过行程长度编码(run length coding )而将位置用信号通知,但其它编码方法也可能代替或作为附加,正如下面更详细地描述的那样。同样地,编码可以至少部分地是依赖于上下文的。例如,如果要被编码的数据集或数据组的长度是事先已知的,则它可以作为 第一符号串码的前缀。至少部分地依赖于实施例的细节,最后的符号串的位置可以被确定而无需发送或存储相应于该特定的符号串的附加 信息,同样如下面更详细地描述的那样。而且,关于所有的或某些符号串的辅助信息或附加信息也可以被 包括在数据码中。在一个特定实施例中,与特定的符号串有关的附加 信息可以在相应的符号串码的结尾或否则与其相关联地被发送。替换 地,附加信息可以在发送或存储符号串码后被发送或存储。更一般地, 附加信息可以在任何时间或以任何方式被提供,以使得译码器能够把 该信息与相应的符号串相关联。例如,要被使用的符号串的列表或表 可以被预先确定或预定义。替换地或另外,例如,它可以至少部分基 于在要压缩的数据中出现的符号串而被编制。在特定的数据集或数据組的符号串码被存储或被发送后,可以使 用结尾码(eiid code)。在数据集中存在的符号串——除最后的符号串外 ——的位置被存储或传送后,在至少某些实施例中,可以确定最后的 符号串的位置。因此,编码器可以省略存储或传送这样的最后的符号8串的位置,正如此后更详细地描述的那样。同样地,由所请求保护的主题覆盖的实施例包括例如能够实施任 何这样的方法的计算机程序,和/或能够实施这样的方法的计算机系 统。实施例还包括能够实行如下面描述的方法的硬件和/或软件编码 器,以及能够从代表数据的压缩的数据码重建原始的数据集或数据组 的硬件和/或软件译码器。这些以及许多其它实施例将在所请求保护的 主题的范围内。在所描述的至少某些实施例中,压缩是无损的,虽然所请求保护 的主题在范围上不限于这方面。例如,在某些实施例中,数据码可包 括关于被包含在要被压缩的数据内的那些符号串的位置的信息。在这个特定的情形中,要被压缩的相关数据的任何组、集或部分 被视作字符或其它符号的有序序列。如果这样的数据代表例如文本, 则各个符号可包括一个或多个文本字符,但当然这不是必须的。许多 其它的符号也可以被表示。更一般地,符号可以由字节或其它大小的 数据组来表示。也有可能使用较长的或短的数据部分,它可以或不一 定适合于在例如字节或数字字长度内。如果数据以二进制形式表示,变长度的多个比特。作为一个例子,诸如被存储为文件、记录或数据的其它单一联系 之类的数据可以视作整体,或替代地被划分或分割成合适的长度,该 长度对于符号組——在这里被称为符号串——足够长,使之可以以某 个压缩效率被编码,但足够短到可以方便地处理。下面将更详细地描述各种方法o初始地,例如在一个特定实施例中,建立可在数据集内出现的符 号串的列表或表。加到这个列表的可以是至少部分基于关于数据的统 计量的现有知识或信息的符号串的初始列表。为提供某些简单的例子,例如对于文本,通常的符号串可包括"ee,,、诸如"and"或"or"之类经 常出现的字、或后面跟随空白的标点符号。当然,所请求保护的主题 在范围上不限于这些例子或这个特定实施例。许多可能的变化也将被包括在所请求保护的主题的范围内。作为另一个例子,可以在本文档来自技高网...

【技术保护点】
一种压缩相关数据组的方法,包括: (a)选择在要被压缩的数据内出现的符号串,并生成指示符号串在要被压缩的数据组内的一个或多个位置的符号串码; (b)对于在组内出现的另外的符号串,接连地重复(a);以及 (c)把各个符号串码 组合成压缩数据码。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:DM门罗
申请(专利权)人:埃塞克斯PA有限责任公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1