一种字符串的压缩处理方法、装置和存储介质制造方法及图纸

技术编号:26797143 阅读:17 留言:0更新日期:2020-12-22 17:14
本发明专利技术实施例公开了一种字符串的压缩处理方法、装置和存储介质。该方法包括:将完整字符串拆分成至少一个规律字符串;根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。通过采用本申请所提供的技术方案,可以实现对于完整字符串进行高效压缩,极大程度的减小数据占用空间的效果。

【技术实现步骤摘要】
一种字符串的压缩处理方法、装置和存储介质
本专利技术实施例涉及数据处理
,尤其涉及一种字符串的压缩处理方法、装置和存储介质。
技术介绍
随着科学技术的发展,字符串存储检索匹配算法广泛应用于基于快速包检测的网络设备,例如入侵检测系统以及流量监控等。一般的数据库表结构设计时,会设计业务主键字段被用来判断数据的唯一性,但有时也会存在外部数据要么没有业务主键,要么其字符串非常长索引效率低等问题。归结起来,就是海量数据的存储、索引和检索需求越来越多,其存在占用空间大、检索速度慢等现实问题。现有技术中,使用各种分库分表等分布式存储技术,但该技术本身并没有减少数据存储空间,也没有办法提升单一节点检索性能问题。
技术实现思路
本专利技术实施例提供一种字符串的压缩处理方法、装置和存储介质,可以实现对于完整字符串进行高效压缩,极大程度的减小数据占用空间的效果。第一方面,本专利技术实施例提供了一种字符串的压缩处理方法,该方法包括:将完整字符串拆分成至少一个规律字符串;根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。进一步的,若所述规律字符串的类型为重复型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:读取哈希表中的键值对信息,识别所述规律字符串中的重复字符分段是否为已编码分段;若是,则以所述哈希表中所述重复字符分段的统一编码代替该重复字符分段;对规律字符串中所有重复字符分段进行代替操作,以得到规律字符串的压缩数据。进一步的,在读取哈希表中的键值对信息,识别所述规律字符串中的重复字符分段是否为已编码分段之后,所述方法还包括:若否,则确定所述重复字符分段的新增编码,并将所述重复字符分段与新增编码添加至所述哈希表中。进一步的,所述方法还包括:判断所述哈希表中的键值对数量是否达到预设数量;若是,则根据所述哈希表中键值对的使用热度,对所述哈希表中的键值对使用热度低于预设阈值的,存储至磁盘存储空间。进一步的,若所述规律字符串的类型为时间型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:确定规律字符串的时间数据与基准时间的时间差值;将所述时间差值代替为所述规律字符串的压缩数据。进一步的,若所述规律字符串的类型为数字型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:确定规律字符串的数字字节数;根据所述数字字节数,确定与所述规律字符串的数字内容相对应的二进制数字,作为规律字符串的压缩数据。进一步的,若所述规律字符串的类型为有限枚举型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:确定所述规律字符串的有限枚举数据在结构化数据中的数字取值;以所述有限枚举数据在该结构化数据的数字取值作为所述规律字符串的压缩数据。进一步的,在遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果之后,所述方法还包括:若检测到压缩数据检索指令,将所述检索指令的检索内容按照所述预设压缩方式转化为检索字符;通过所述检索字符与压缩数据的对比结果,确定检索结果。第二方面,本专利技术实施例还提供了一种在线字符串的压缩处理装置,该装置包括:规律字符串拆分模块,用于将完整字符串拆分成至少一个规律字符串;压缩方式确定模块,用于根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;压缩处理模块,用于采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;压缩结果输出模块,用于遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的字符串的压缩处理方法。第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的字符串的压缩处理方法。本申请实施例所提供的技术方案,将完整字符串拆分成至少一个规律字符串;根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。通过采用本申请所提供的技术方案,可以针对不同类型的规律字符串,采用不同的方式进行压缩,以实现对于完整字符串进行高效压缩,极大程度的减小数据占用空间的效果。附图说明图1是本专利技术实施例一提供的字符串的压缩处理方法的流程图;图2是本专利技术实施例二提供的字符串的压缩处理装置的结构示意图;图3是本申请实施例四提供的一种电子设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1是本专利技术实施例一提供的字符串的压缩处理方法的流程图,本实施例可适用于数据压缩和检索的情况,该方法可以由本专利技术实施例所提供的字符串的压缩处理装置来执行,该装置可以由软件和/或硬件的方式来实现,并可集成于用于数据压缩的电子设备中。如图1所示,所述字符串的压缩处理方法包括:S110、将完整字符串拆分成至少一个规律字符串。其中,完整字符串即为被压缩数据的完整内容。规律字符串,可以是特征明显的数据段,例如地址字符串,时间字符串等等。在本实施例中,可以把外部接收到的完整字符串拆分成若干个特征明显的数据段,并针对每个特征明显的子字符串的特殊性采用针对性的压缩算法,大幅减少了数据存储空间,并加快了数据检索性能。其中,特征可以是根据预先确定的规律字符串的起始字符,本文档来自技高网...

【技术保护点】
1.一种字符串的压缩处理方法,其特征在于,包括:/n将完整字符串拆分成至少一个规律字符串;/n根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;/n采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;/n遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。/n

【技术特征摘要】
1.一种字符串的压缩处理方法,其特征在于,包括:
将完整字符串拆分成至少一个规律字符串;
根据所述规律字符串的类型,确定对所述规律字符串的预设压缩方式;其中,所述规律字符串的类型包括重复型、时间型、数字型以及有限枚举型中的至少一种;
采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据;
遍历完整字符串,以得到包括所述压缩数据的完整字符串压缩结果。


2.根据权利要求1所述的方法,其特征在于,若所述规律字符串的类型为重复型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
读取哈希表中的键值对信息,识别所述规律字符串中的重复字符分段是否为已编码分段;
若是,则以所述哈希表中所述重复字符分段的统一编码代替该重复字符分段;
对规律字符串中所有重复字符分段进行代替操作,以得到规律字符串的压缩数据。


3.根据权利要求2所述的方法,其特征在于,在读取哈希表中的键值对信息,识别所述规律字符串中的重复字符分段是否为已编码分段之后,所述方法还包括:
若否,则确定所述重复字符分段的新增编码,并将所述重复字符分段与新增编码添加至所述哈希表中。


4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
判断所述哈希表中的键值对数量是否达到预设数量;
若是,则根据所述哈希表中键值对的使用热度,对所述哈希表中的键值对使用热度低于预设阈值的,存储至磁盘存储空间。


5.根据权利要求1所述的方法,其特征在于,若所述规律字符串的类型为时间型,则采用所述预设压缩方式对所述规律字符串进行压缩处理,得到规律字符串的压缩数据,包括:
确定规律字符串的时间数据与基准时间的时间差值;
将所述时间差值代替为所述规律字符串的压缩数据...

【专利技术属性】
技术研发人员:毛晨斌邹龙泉刘建华
申请(专利权)人:中电信用服务有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1