当前位置: 首页 > 专利查询>伊姆西公司专利>正文

用于文本压缩和解压缩的方法和设备技术

技术编号:13587561 阅读:132 留言:0更新日期:2016-08-25 11:17
本公开提供了一种用于文本压缩和解压缩的方法和设备。在根据本公开的一个实施方式中,所述方法包括:接收文本数据;基于文本字典来搜索文本数据中的可压缩文本项,其中文本字典包括多个键值对,多个键值对中的每个键值对包括文本压缩值以及对应的可压缩文本项,且文本压缩值具有比所述可压缩文本项更小的长度;以及将搜索到的文本数据中的可压缩文本项替换为对应的文本压缩值,以便对文本数据进行压缩。在本公开的实施方式中,不但可以获得期望的压缩率,而且压缩后的内容本身仍然是可搜索的文本形式。这提供了在无需解压的情况下进行搜索的可能性,因此可以显著节约存储空间和提高搜索效率,进而降低总所有成本TCO并给用户提供更好的体验。

【技术实现步骤摘要】

本公开的实施方式涉及数据压缩
,并且更具体地涉及用于进行文本压缩的方法、设备和计算机程序产品。
技术介绍
目前,在诸如软件即服务(SaaS)以及大规模的分布式系统的大型软件系统中,每天会产生大量日志消息,以用于诸如系统监视、用户行为记录和故障诊断等各种目的。这些日志数据以非常高的吞吐量来产生,该吞吐量通常可以达到例如每小时10GB。这样的日志流将会占据了大量的I/O容量,而且这很可能成为系统系能的瓶颈。为了改善系统性能,系统管理员通常需要关闭日志记录功能或者降低日志记录的精细度,例如不记录日志,或者仅仅在出现错误时才记录日志而忽略日常操作相关的日志信息。这种方式通过牺牲日志信息的细节而换取了系统性能的提升。然而,由于日志详细信息的缺乏。这却会在需要对系统问题进行识别和跟踪时造成额外的困难。因此,从诸如故障诊断等目的而言,记录完整的日志信息是期望的。然而,这意味着需要在文件系统中或者需要在系统分析工具中配置巨大的存储空间。例如,在文件系统中提供存储空间的情况下,根据现有技术,为了节省存储空间日志文件一般被压缩为二进制文件。已知的是二进制压缩文件时不可搜索的,因而在执行日志分析时,需要在进行分析工作之前对压缩文件执行解压缩。当日志文件尺寸很大时,解压缩本身将花费很长的时间。而且还需要管理用于解压缩文件的额外存储空间。另外,由于二进制压缩文件不具有可搜索性,通常用于存储和对日志进行分析的日志分析工具需要存储不经压缩的原始文件。而由于巨大的数据量,这继而引发了日志分析工具也需要巨
大存储空间以及搜索效率低下的问题。因此,在本领域存在一种对改进的用于文本压缩和解压缩的方案的需求。
技术实现思路
有鉴于此,本公开提供了一种新的用于文本压缩和解压缩的技术方案,以克服或者缓解如前所述的现有技术中存在的至少一部分缺陷。根据本公开的第一方面,提供了一种用于对文本数据进行压缩的方法。该方法可以包括:接收文本数据;基于文本字典来搜索所述文本数据中的可压缩文本项,其中所述文本字典包括多个键值对,所述多个键值对中的每个键值对包括文本压缩值以及对应的可压缩文本项,且所述文本压缩值具有比所述可压缩文本项更小的长度;以及将搜索到的所述文本数据中的可压缩文本项替换为对应的文本压缩值,以便对所述文本数据进行压缩。在根据本公开的一个实施方式中,所述文本字典可以是基于所述文本数据的类型从分别与多种不同类型的文本数据对应的多个文本字典中而选择的。在根据本公开的另一实施方式中,所述文本字典可以具有版本信息,以及所述方法可以进一步包括:为经过压缩的所述文本数据标记与所述文本字典的版本信息相同的压缩版本信息在根据本公开的又一实施方式中,所述文本字典可以是通过对多个样本文本数据进行高频出现信息提取而建立的。在根据本公开的再一实施方式中,所述可压缩文本项可以包括文本数据中频繁出现的语句、所采用的编程语言所固有的模式和文本类型所固定的格式其中一种或多种。在根据本公开的另一实施方式中,所述文本字典的键值对所包括的可压缩文本项可以具有大于预定值的长度。在根据本公开的又一实施方式中,所述文本字典的键值对所包括
的文本压缩值可以包括大写字母、小写字母、数字以及符号其中任何一种及其组合,以及其中所述文本压缩值的长度可以不超过预定值。在根据本公开的再一实施方式中,所述文本字典可以具有预定大小,以及其中可以基于文本项的权重来确定所述文本字典中的可压缩文本项,所述文本项的权重可以至少基于所述文本项的长度及其出现频率来确定。在根据本公开的另一实施方式中,所述文本数据可以是文本流形式的日志数据。在根据本公开的再一实施方式中,所述文本数据可以是其中包括可压缩文本项的针对已压缩文件的文本搜索请求。在根据本公开的又一实施方式中,可以使用与所述文本搜索请求所针对的搜索已压缩文件的类型和版本信息对应的文本字典来对所述文本搜索请求进行压缩。根据本公开的第二方面,提供了一种用于对压缩文本数据进行解压缩的方法。所述方法可以包括:接收压缩文本数据;基于文本字典来搜索所述压缩文本数据中的文本压缩值,其中所述文本字典包括多个键-值对,所述多个键-值对中的每个键值对包括文本压缩值以及对应的可压缩文本项,且所述文本压缩值具有比所述可压缩文本项更小的长度;以及将搜索到的所述压缩文本数据中的文本压缩值替换为对应的可压缩文本项,以便对所述文本数据进行解压缩。根据本公开的第三方面,提供了一种用于对文本数据进行压缩的设备。所述设备包括:文本数据接收模块,被配置用于接收文本数据;文本项搜索模块,被配置用于基于文本字典来搜索所述文本数据中的可压缩文本项,其中所述文本字典包括多个键-值对,所述多个键-值对中的每个键值对包括文本压缩值以及对应的可压缩文本项,且所述文本压缩值具有比所述可压缩文本项更小的长度;以及文本项替换模块,被配置用于将搜索到的所述文本数据中的可压缩文本项替换为对应的文本压缩值,以便对所述文本数据进行压缩。根据本公开的第四方面,提供了一种用于对压缩文本数据进行解
压缩的设备。所述设备可以包括:压缩数据接收模块,被配置为接收压缩文本数据;压缩值搜索模块,被配置用于基于文本字典来搜索所述压缩文本数据中的文本压缩值,其中所述文本字典包括多个键值对,所述多个键值对中的每个键值对包括文本压缩值以及对应的可压缩文本项,且所述文本压缩值具有比所述可压缩文本项更小的长度;以及压缩值替换模块,被配置用于将搜索到的所述压缩文本数据中的文本压缩值替换为对应的可压缩文本项,以便对所述文本数据进行解压缩。根据本公开的第五方面,还提供了一种计算机程序产品,其上包括程序代码,当所述程序代码在处理器上执行时致使所述处理器中执行根据本公开的第一方面的方法。根据本公开的第六方面,还提供了一种计算机程序产品,其上包括程序代码,当所述程序代码在处理器上执行时致使所述处理器中执行根据本公开的第二方面的方法。在本公开的实施方式中,提供了一种改进的用于对文本数据进行压缩和解压缩的技术方案。根据该技术方案,将通过将文本数据中的可压缩文本项替换为对应的文本压缩值来执行文本压缩,而不是采用不可搜索的二进制压缩方式。通过这种压缩方式,不但可以获得期望的压缩率,而且压缩后的内容本身仍然是可搜索的文本形式。这样,在进行查询时,就可以将查询请求中的可压缩文本项同样压缩成文本压缩值,并以该文本压缩值对压缩文件进行搜索,而无需对压缩文件进行解压缩。这意味可以显著节约存储空间和大大提高搜索效率。因而,根据本公开的技术方案不仅可以降低总所有成本(TCO),而且可以为用户提供更好的体验。附图说明通过结合附图并参考以下详细说明,本公开各实施方式的特征、优点及其他方面将变得更加明显,在附图中:图1示意性地示出了根据本公开的一个实施方式的文本数据压缩
的方框图;图2示意性地示出了根据本公开的一个实施方式的用于对文本数据进行压缩的方法的流程图;图3示意性的示出了根据本公开的一个实施方式的示例性文本字典的一部分的图示;图4示意性地示出了根据本公开的一个实施方式的示例性压缩文本数据分的图示;图5示意性地示出了根据本公开的一个实施方式的文本数据查询和解压缩的方框图;图6示意性地示出了根据本公开的一个实施方式的用于对压缩文本数本文档来自技高网
...

【技术保护点】
一种用于对文本数据进行压缩的方法,包括:接收文本数据;基于文本字典来搜索所述文本数据中的可压缩文本项,其中所述文本字典包括多个键值对,所述多个键值对中的每个键值对包括文本压缩值以及对应的可压缩文本项,且所述文本压缩值具有比所述可压缩文本项更小的长度;以及将搜索到的所述文本数据中的可压缩文本项替换为对应的文本压缩值,以便对所述文本数据进行压缩。

【技术特征摘要】
1.一种用于对文本数据进行压缩的方法,包括:接收文本数据;基于文本字典来搜索所述文本数据中的可压缩文本项,其中所述文本字典包括多个键值对,所述多个键值对中的每个键值对包括文本压缩值以及对应的可压缩文本项,且所述文本压缩值具有比所述可压缩文本项更小的长度;以及将搜索到的所述文本数据中的可压缩文本项替换为对应的文本压缩值,以便对所述文本数据进行压缩。2.根据权利要求1所述的方法,其中所述文本字典是基于所述文本数据的类型从分别与多种不同类型的文本数据对应的多个文本字典中而选择的。3.根据权利要求1所述的方法,其中所述文本字典具有版本信息,以及所述方法进一步包括:为经过压缩的所述文本数据标记与所述文本字典的版本信息相同的压缩版本信息。4.根据权利要求1所述的方法,其中所述文本字典是通过对多个样本文本数据进行高频出现信息提取而建立的。5.根据权利要求4所述的方法,其中所述可压缩文本项包括文本数据中频繁出现的语句、所采用的编程语言所固有的模式和文本类型所固定的格式其中一种或多种。6.根据权利要求1所述的方法,其中所述文本字典的键值对所包括的可压缩文本项具有大于预定值的长度。7.根据权利要求1所述的方法,其中所述文本字典的键值对所包括的文本压缩值包括大写字母、小写字母、数字以及符号其中任何一种及其组合,以及其中所述文本压缩值的长度不超过预定值。8.根据权利要求1所述的方法,其中所述文本字典具有预定大小,以及其中基于文本项的权重来确定所述文本字典中的可压缩文本
\t项,所述文本项的权重至少基于所述文本项的长度及其出现频率来确定。9.根据权利要求1所述的方法,其中所述文本数据是文本流形式的日志数据。10.根据权利要求1所述的方法,其中所述文本数据是其中包括可压缩文本项的针对已压缩文件的文本搜索请求。11.根据权利要求10所述的方法,其中使用与所述文本搜索请求所针对的搜索已压缩文件的类型和版本信息对应的文本字典来对所述文本搜索请求进行压缩。12.一种用于对压缩文本数据进行解压缩的方法,包括:接收压缩文本数据;基于文本字典来搜索所述压缩文本数据中的文本压缩值,其中所述文本字典包括多个键-值对,所述多个键-值对中的每个键值对包括文本压缩值以及对应的可压缩文本项,且所述文本压缩值具有比所述可压缩文本项更小的长度;以及将搜索到的所述压缩文本数据中的文本压缩值替换为对应的可压缩文本项,以便对所述文本数据进行解压缩。13.根据权利要求12所述的方法,其中所述文本字典是基于所述压缩文本数据的类型及其压缩版本信息,从与多种不同类型的文本数据和版本信息对应的多个文本字典中选择的。14.根据权利要求12所述的方法,其中所述文本字典是通过对多个样本文本数据进行高频出现信息提取而建立的。15.根据权利要求14所述的方法,其中所述可压缩文本项包括文本数据中频繁出现的语句、所采用的编程语言所固有的模式和文本类型所固定的格式其中一种或多种。16.根据权利要求12所述的方法,其中所述文本字典的键值对所包括的可压缩文本项具有大于预定值的长度。17.根据权利要求12所述的方法,其中所述文本字典的所述键值对所...

【专利技术属性】
技术研发人员:袁宏张申竣王羽嘉李振东刘霞
申请(专利权)人:伊姆西公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1