【技术实现步骤摘要】
本公开的实施方式涉及数据压缩
,并且更具体地涉及用于进行文本压缩的方法、设备和计算机程序产品。
技术介绍
目前,在诸如软件即服务(SaaS)以及大规模的分布式系统的大型软件系统中,每天会产生大量日志消息,以用于诸如系统监视、用户行为记录和故障诊断等各种目的。这些日志数据以非常高的吞吐量来产生,该吞吐量通常可以达到例如每小时10GB。这样的日志流将会占据了大量的I/O容量,而且这很可能成为系统系能的瓶颈。为了改善系统性能,系统管理员通常需要关闭日志记录功能或者降低日志记录的精细度,例如不记录日志,或者仅仅在出现错误时才记录日志而忽略日常操作相关的日志信息。这种方式通过牺牲日志信息的细节而换取了系统性能的提升。然而,由于日志详细信息的缺乏。这却会在需要对系统问题进行识别和跟踪时造成额外的困难。因此,从诸如故障诊断等目的而言,记录完整的日志信息是期望的。然而,这意味着需要在文件系统中或者需要在系统分析工具中配置巨大的存储空间。例如,在文件系统中提供存储空间的情况下,根据现有技术,为了节省存储空间日志文件一般被压缩为二进制文件。已知的是二进制压缩文件时不可搜索的,因而在执行日志分析时,需要在进行分析工作之前对压缩文件执行解压缩。当日志文件尺寸很大时,解压缩本身将花费很长的时间。而且还需要管理用于解压缩文件的额外存储空间。另外,由于二进制压缩文件不具有可搜索性,通常用于存储和对日志进行分析的日志分析工具需要存储不经压缩的原始文件。而由于巨大的数据量,这继而引发了日志分析工具也需要巨
大存储空间以及搜索效率低下的问题。因此,在本领域存在一种对改 ...
【技术保护点】
一种用于对文本数据进行压缩的方法,包括:接收文本数据;基于文本字典来搜索所述文本数据中的可压缩文本项,其中所述文本字典包括多个键值对,所述多个键值对中的每个键值对包括文本压缩值以及对应的可压缩文本项,且所述文本压缩值具有比所述可压缩文本项更小的长度;以及将搜索到的所述文本数据中的可压缩文本项替换为对应的文本压缩值,以便对所述文本数据进行压缩。
【技术特征摘要】
1.一种用于对文本数据进行压缩的方法,包括:接收文本数据;基于文本字典来搜索所述文本数据中的可压缩文本项,其中所述文本字典包括多个键值对,所述多个键值对中的每个键值对包括文本压缩值以及对应的可压缩文本项,且所述文本压缩值具有比所述可压缩文本项更小的长度;以及将搜索到的所述文本数据中的可压缩文本项替换为对应的文本压缩值,以便对所述文本数据进行压缩。2.根据权利要求1所述的方法,其中所述文本字典是基于所述文本数据的类型从分别与多种不同类型的文本数据对应的多个文本字典中而选择的。3.根据权利要求1所述的方法,其中所述文本字典具有版本信息,以及所述方法进一步包括:为经过压缩的所述文本数据标记与所述文本字典的版本信息相同的压缩版本信息。4.根据权利要求1所述的方法,其中所述文本字典是通过对多个样本文本数据进行高频出现信息提取而建立的。5.根据权利要求4所述的方法,其中所述可压缩文本项包括文本数据中频繁出现的语句、所采用的编程语言所固有的模式和文本类型所固定的格式其中一种或多种。6.根据权利要求1所述的方法,其中所述文本字典的键值对所包括的可压缩文本项具有大于预定值的长度。7.根据权利要求1所述的方法,其中所述文本字典的键值对所包括的文本压缩值包括大写字母、小写字母、数字以及符号其中任何一种及其组合,以及其中所述文本压缩值的长度不超过预定值。8.根据权利要求1所述的方法,其中所述文本字典具有预定大小,以及其中基于文本项的权重来确定所述文本字典中的可压缩文本
\t项,所述文本项的权重至少基于所述文本项的长度及其出现频率来确定。9.根据权利要求1所述的方法,其中所述文本数据是文本流形式的日志数据。10.根据权利要求1所述的方法,其中所述文本数据是其中包括可压缩文本项的针对已压缩文件的文本搜索请求。11.根据权利要求10所述的方法,其中使用与所述文本搜索请求所针对的搜索已压缩文件的类型和版本信息对应的文本字典来对所述文本搜索请求进行压缩。12.一种用于对压缩文本数据进行解压缩的方法,包括:接收压缩文本数据;基于文本字典来搜索所述压缩文本数据中的文本压缩值,其中所述文本字典包括多个键-值对,所述多个键-值对中的每个键值对包括文本压缩值以及对应的可压缩文本项,且所述文本压缩值具有比所述可压缩文本项更小的长度;以及将搜索到的所述压缩文本数据中的文本压缩值替换为对应的可压缩文本项,以便对所述文本数据进行解压缩。13.根据权利要求12所述的方法,其中所述文本字典是基于所述压缩文本数据的类型及其压缩版本信息,从与多种不同类型的文本数据和版本信息对应的多个文本字典中选择的。14.根据权利要求12所述的方法,其中所述文本字典是通过对多个样本文本数据进行高频出现信息提取而建立的。15.根据权利要求14所述的方法,其中所述可压缩文本项包括文本数据中频繁出现的语句、所采用的编程语言所固有的模式和文本类型所固定的格式其中一种或多种。16.根据权利要求12所述的方法,其中所述文本字典的键值对所包括的可压缩文本项具有大于预定值的长度。17.根据权利要求12所述的方法,其中所述文本字典的所述键值对所...
【专利技术属性】
技术研发人员:袁宏,张申竣,王羽嘉,李振东,刘霞,
申请(专利权)人:伊姆西公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。