一种文字压缩的方法及装置制造方法及图纸

技术编号:35281508 阅读:35 留言:0更新日期:2022-10-22 12:24
本发明专利技术提供一种文字压缩的方法及装置。该方法包括:将待压缩文字中出现次数大于2的单个文字进行组合,获取文字组合;所述文字组合是所述待压缩文字中出现次数大于2的连续单个文字的组合;对所述单个文字和所述文字组合进行编码,形成对应的文字编码;根据所述单个文字、所述文字组合及所述文字编码生成字典;根据所述字典对所述待压缩文字进行压缩。本发明专利技术提供的文字压缩的方法及装置,可以提高文字压缩速度和文字压缩效果。缩速度和文字压缩效果。缩速度和文字压缩效果。

【技术实现步骤摘要】
一种文字压缩的方法及装置


[0001]本专利技术涉及数据压缩
,尤其涉及一种文字压缩的方法及装置。

技术介绍

[0002]LZW压缩(LZW compression)是一种由Abraham Lempel、Jacob Ziv和Terry Welch专利技术的基于表查寻算法把文件压缩成小文件的无损压缩方法。现有LZW压缩方法应用于文本压缩时,需要一个表生成器用于生成表(字典)。表生成器从原字符串不断地读入新的字符,并试图将单个字符或字符串编码为记号。表生成器维护两个变量,一个是P(Previous),表示手头已有的,还没有被编码的字符串;一个是C(current),表示当前新读进来的字符。由于英文由26个字母组成,表的初始状态内的P较少,因而编码的工作量相对较小,但是汉字的总数已经超过8万,表的初始状态内的P会变得非常多,导致汉字压缩效率很低,因此不适用于文字压缩。LZW压缩方法虽然具备压缩文字数据的能力,但压缩效率不高,无法对文字进行大幅度压缩。

技术实现思路

[0003]本专利技术提供一种文字压缩的方法及装置,用以解决现有技术中文字压缩效率不高的技术问题,实现提高文字压缩速度和文字压缩效果。
[0004]本专利技术提供一种文字压缩的方法,包括:
[0005]将待压缩文字中出现次数大于2的单个文字进行组合,获取文字组合;所述文字组合是所述待压缩文字中出现次数大于2的连续单个文字的组合;
[0006]对所述单个文字和所述文字组合进行编码,形成对应的文字编码;
[0007]根据所述单个文字、所述文字组合及所述文字编码生成字典;
[0008]根据所述字典对所述待压缩文字进行压缩。
[0009]在一个实施例中,所述对所述单个文字和所述文字组合进行编码,形成对应的文字编码;根据所述单个文字、所述文字组合及所述文字编码生成字典,包括:
[0010]对所述单个文字和所述文字组合按照字数大小升序排列;
[0011]对具有相同字数的所述单个文字和所述文字组合按照出现次数大小升序排列;
[0012]基于所述单个文字和所述文字组合对应的排列顺序,对所述单个文字和所述文字组合依次编码,形成对应的所述文字编码;
[0013]根据所述单个文字、所述文字组合及所述文字编码生成所述字典。
[0014]在一个实施例中,所述根据所述字典对所述待压缩文字进行压缩,包括:
[0015]根据所述字典,用所述单个文字和/或所述文字组合对应的所述文字编码替换所述待压缩文字中对应的文字。
[0016]在一个实施例中,所述文字压缩的方法,还包括:
[0017]在所述待压缩文字中出现的连续文字能够被连续的所述文字组合和/或所述单个文字替换的情况下,优先使用所述文字编码较大的所述文字组合替换所述待压缩文字中对
应的文字。
[0018]在一个实施例中,所述文字压缩的方法,还包括:
[0019]在所述单个文字和所述文字组合的总个数大于预设数量的情况下,按照所述排列顺序对所述单个文字和所述文字组合进行删除,直至所述单个文字和所述文字组合的总个数等于预设数量。
[0020]在一个实施例中,所述文字编码为16位2进制的文字编码,并且按照所述排列顺序从0000 0000 0000 0001开始累加。
[0021]本专利技术提供一种文字压缩的装置,包括:
[0022]组合模块,用于将待压缩文字中出现次数大于2的单个文字进行组合,获取文字组合;所述文字组合是所述待压缩文字中出现次数大于2的连续单个文字的组合;
[0023]编码模块,用于对所述单个文字和所述文字组合进行编码,形成对应的文字编码;根据所述单个文字、所述文字组合及所述文字编码生成字典;
[0024]压缩模块,用于根据所述字典对所述待压缩文字进行压缩。
[0025]在一个实施例中,所述编码模块,用于对所述单个文字和所述文字组合按照字数大小升序排列;
[0026]对具有相同字数的所述单个文字和所述文字组合按照出现次数大小升序排列;
[0027]基于所述单个文字和所述文字组合对应的排列顺序,对所述单个文字和所述文字组合依次编码,形成对应的所述文字编码;
[0028]根据所述单个文字、所述文字组合及所述文字编码生成所述字典。
[0029]本专利技术提供一种电子设备,包括存储器和存储有计算机程序的存储器,所述处理器执行所述程序时实现上述任一种所述文字压缩的方法的步骤。
[0030]本专利技术提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行上述任一种所述文字压缩的方法的步骤。
[0031]本专利技术提供的一种文字压缩的方法及装置,通过将出现次数大于2的单个文字和文字组合以及对应的编码生成的字典,再根据字典对待压缩文字进行压缩,可以实现提高文字压缩速度和文字压缩效果。
附图说明
[0032]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1是本专利技术提供的文字压缩的方法的流程示意图;
[0034]图2是本专利技术提供的文字压缩的装置的结构示意图;
[0035]图3是本专利技术提供的电子设备的实体结构示意图;
具体实施方式
[0036]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,
而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0037]图1为本专利技术提供的文字压缩的方法的流程示意图。参照图1,本专利技术提供的文字压缩的方法包括:
[0038]S110、将待压缩文字中出现次数大于2的单个文字进行组合,获取文字组合;所述文字组合是所述待压缩文字中出现次数大于2的连续单个文字的组合;
[0039]S120、对所述单个文字和所述文字组合进行编码,形成对应的文字编码;根据所述单个文字、所述文字组合及所述文字编码生成字典;
[0040]S130、根据所述字典对所述待压缩文字进行压缩。
[0041]本专利技术提供的文字压缩的方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra

mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文字压缩的方法,其特征在于,包括:将待压缩文字中出现次数大于2的单个文字进行组合,获取文字组合;所述文字组合是所述待压缩文字中出现次数大于2的连续单个文字的组合;对所述单个文字和所述文字组合进行编码,形成对应的文字编码;根据所述单个文字、所述文字组合及所述文字编码生成字典;根据所述字典对所述待压缩文字进行压缩。2.根据权利要求1所述的文字压缩的方法,其特征在于,所述对所述单个文字和所述文字组合进行编码,形成对应的文字编码;根据所述单个文字、所述文字组合及所述文字编码生成字典,包括:对所述单个文字和所述文字组合按照字数大小升序排列;对具有相同字数的所述单个文字和所述文字组合按照出现次数大小升序排列;基于所述单个文字和所述文字组合对应的排列顺序,对所述单个文字和所述文字组合依次编码,形成对应的所述文字编码;根据所述单个文字、所述文字组合及所述文字编码生成所述字典。3.根据权利要求2所述的文字压缩的方法,其特征在于,所述根据所述字典对所述待压缩文字进行压缩,包括:根据所述字典,用所述单个文字和/或所述文字组合对应的所述文字编码替换所述待压缩文字中对应的文字。4.根据权利要求3所述的文字压缩的方法,其特征在于,还包括:在所述待压缩文字中出现的连续文字能够被连续的所述文字组合和/或所述单个文字替换的情况下,优先使用所述文字编码较大的所述文字组合替换所述待压缩文字中对应的文字。5.根据权利要求2所述的文字压缩的方法,其特征在于,还包括:在所述单个文字和所述文字组合的总个数大于预设数量的情况下...

【专利技术属性】
技术研发人员:田国良蒋强
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1