一种客户号压缩和解压方法及装置制造方法及图纸

技术编号:36351302 阅读:54 留言:0更新日期:2023-01-14 18:06
本发明专利技术实施例提供了一种客户号压缩和解压的方法和装置,应用于大数据领域以及金融领域,获取待压缩客户号集合,待压缩客户号集合包括多个待压缩客户号,每个待压缩客户号包括省市编码字段、顺序号字段和吉祥数字段;对多个待压缩客户号进行分组,得到多个待压缩客户号分组;每个待压缩客户号分组中包括一个顺序号字段和一个序列集合,针对每个待压缩客户号分组,对待压缩客户号分组进行压缩,得到分组压缩结果,分组压缩结果包括顺序号字段压缩结果、序列集合压缩结果以及预设结尾标志,基于各个分组压缩结果确定待压缩客户号集合的压缩结果,减少了待压缩客户号集合的传输内容,使得该待压缩客户号集合可采用更小空间进行存储,提高了压缩效率。提高了压缩效率。提高了压缩效率。

【技术实现步骤摘要】
一种客户号压缩和解压方法及装置


[0001]本专利技术属于数据处理领域,尤其涉及一种客户号压缩和解压方法及装置。

技术介绍

[0002]客户数据是公司最重要的资产,公司往往在运营方面需要对一批客户进行营销,因此,会产生大量的数据集。
[0003]现有技术中,应用Huffman编码,利用字符出现的频度构造二叉树,通过构造的二叉树获得对应字符的编码,进行形成的一种无损编码方法。
[0004]但是,基于客户号编码规则,可预测到最大的两个字符应为1和6,其他字符出现的频率大体一致,欲编码的字符出现频率接近均匀分布,Huffman编码无法充分压缩数据集,压缩效率低。

技术实现思路

[0005]鉴于上述问题,本申请提出了一种客户号压缩和解压方法及装置,为了提高客户号的压缩效率,具体方案如下:
[0006]一种客户号压缩方法,包括:
[0007]获取待压缩客户号集合,所述待压缩客户号集合包括多个待压缩客户号,每个待压缩客户号包括省市编码字段、顺序号字段和吉祥数字段;所述顺序号字段为九个字节,所述省市编码字段为两个字节,所述吉祥数字段为一个字节;
[0008]对所述多个待压缩客户号进行分组,得到多个待压缩客户号分组;每个待压缩客户号分组中包括一个顺序号字段和一个序列集合,所述序列集合中包括至少一个序列,每个序列是由同一待压缩客户号中的省市编码字段和吉祥数字段组成的;
[0009]针对每个待压缩客户号分组,对所述待压缩客户号分组进行压缩,得到分组压缩结果,所述分组压缩结果包括顺序号字段压缩结果、序列集合压缩结果以及预设结尾标志,所述序列集合压缩结果中包括至少一个序列压缩结果,所述顺序号字段压缩结果为四个字节,每个所述序列压缩结果为一个字节,所述预设结尾标志为一个字节;
[0010]基于各个分组压缩结果确定所述待压缩客户号集合的压缩结果。
[0011]可选的,所述对所述待压缩客户号分组进行压缩,得到分组压缩结果,包括:
[0012]基于预设的省市编码字段映射表和吉祥数字段映射表对所述待压缩客户号分组进行转码,转码后的顺序号字段为四个字节,转码后的每个序列包括省市编码字段映射值和吉祥数字段映射值,所述省市编码字段映射值为一个字节,所述吉祥数字段映射值为一个字节;
[0013]将转码后的每个序列中的省市编码字段映射值和吉祥数字段映射值合并,得到合并后的序列,所述合并后的序列为一个字节,所述字节的低六位对应省市编码字段映射值,高两位对应吉祥数字段映射值;
[0014]对所述转码后的顺序号字段和合并后的序列进行二进制编码,得到所述待压缩客
户号分组的二进制表示;
[0015]在所述待压缩客户号分组的二进制表示末尾添加预设结尾标志,得到分组压缩结果。
[0016]可选的,所述获取待压缩客户号集合,包括:
[0017]获取原始客户号集合,所述原始客户号集合包括多个原始客户号,每个原始客户号包括固定值字段、省市编码字段、顺序号字段、校验码字段和吉祥数字段;
[0018]对所述原始客户号集合中每个原始客户号进行清洗,消除每个原始客户号中的固定值字段和校验码字段,得到待压缩客户号集合。
[0019]可选的,所述对所述多个待压缩客户号进行分组,得到多个待压缩客户号分组,包括:
[0020]针对每个待压缩客户号,以所述待压缩客户号的顺序号字段为键,以所述待压缩客户号的省市编码字段和吉祥数字段组成的序列为值,得到所述待压缩客户号对应的键值对;
[0021]将各个待压缩客户号对应的键值对中,具有相同的键的键值对划定为同一分组,得到多个所述待压缩客户号分组。
[0022]可选的,所述基于各个分组压缩结果确定所述待压缩客户号集合的压缩结果,包括:
[0023]将各个分组压缩结果进行组合,得到组合后的压缩结果;
[0024]将所述组合后的压缩结果确定为所述待压缩客户号集合的压缩结果;
[0025]或者,采用预设的压缩算法对所述组合后的压缩结果进行再次压缩,得到所述待压缩客户号集合的压缩结果。
[0026]一种客户号解压方法,包括:
[0027]获取压缩结果,所述压缩结果包括多个分组压缩结果,每个分组压缩结果包括顺序号字段压缩结果、序列集合压缩结果以及预设结尾标志,所述序列集合压缩结果中包括至少一个序列压缩结果,所述顺序号字段压缩结果为四个字节,每个所述序列压缩结果为一个字节,所述预设结尾标志为一个字节;
[0028]针对每个分组压缩结果,对所述分组压缩结果中的前四个字节进行解压,得到顺序号字段,所述顺序号字段为九个字节;对所述分组压缩结果中除去前四个字节以及预设结尾标志之后剩余字节中的每个字节进行解压,得到一组省市编码字段和吉祥数字段,所述省市编码字段为两个字节,所述吉祥数字段为一个字节;将每组省市编码字段和吉祥数字段与所述顺序号字段进行组合得到所述分组压缩结果对应的解压后的客户号。
[0029]可选的,所述对所述分组压缩结果中除去前四个字节以及预设结尾标志之后剩余字节中的每个字节进行解压,得到一组省市编码字段和吉祥数字段,包括:
[0030]将所述字节的低六位转换为省市编码字段的映射值,高两位转换为吉祥数字段的映射值;
[0031]基于预设的省市编码字段映射表,将所述省市编码字段的映射值转换为省市编码字段;
[0032]基于预设的吉祥数字段映射表,将所述吉祥数字段的映射值转换为吉祥数字段。
[0033]可选的,在得到各个解压后的客户号之后,还包括:
[0034]针对每个解压后的客户号,基于所述客户号的顺序号字段、省市编码字段和吉祥数字段,确定所述客户号的校验码字段;基于预设字段顺序,将所述客户号的顺序号字段、省市编码字段、吉祥数字段、校验码字段和预设固定值字段进行组合,得到对应的原始客户号。
[0035]一种客户号压缩装置,包括:
[0036]获取单元,用于获取待压缩客户号集合,所述待压缩客户号集合包括多个待压缩客户号,每个待压缩客户号包括省市编码字段、顺序号字段和吉祥数字段;所述顺序号字段为九个字节,所述省市编码字段为两个字节,所述吉祥数字段为一个字节;
[0037]分组单元,用于对所述多个待压缩客户号进行分组,得到多个待压缩客户号分组;每个待压缩客户号分组中包括一个顺序号字段和一个序列集合,所述序列集合中包括至少一个序列,每个序列是由同一待压缩客户号中的省市编码字段和吉祥数字段组成的;
[0038]压缩单元,用于针对每个待压缩客户号分组,对所述待压缩客户号分组进行压缩,得到分组压缩结果,所述分组压缩结果包括顺序号字段压缩结果、序列集合压缩结果以及预设结尾标志,所述序列集合压缩结果中包括至少一个序列压缩结果,所述顺序号字段压缩结果为四个字节,每个所述序列压缩结果为一个字节,所述预设结尾标志为一个字节;
[0039]确定单元,用于基于各个分组压缩结果,确定所述待压缩客户号集合的压缩结果。
...

【技术保护点】

【技术特征摘要】
1.一种客户号压缩方法,其特征在于,包括:获取待压缩客户号集合,所述待压缩客户号集合包括多个待压缩客户号,每个待压缩客户号包括省市编码字段、顺序号字段和吉祥数字段;所述顺序号字段为九个字节,所述省市编码字段为两个字节,所述吉祥数字段为一个字节;对所述多个待压缩客户号进行分组,得到多个待压缩客户号分组;每个待压缩客户号分组中包括一个顺序号字段和一个序列集合,所述序列集合中包括至少一个序列,每个序列是由同一待压缩客户号中的省市编码字段和吉祥数字段组成的;针对每个待压缩客户号分组,对所述待压缩客户号分组进行压缩,得到分组压缩结果,所述分组压缩结果包括顺序号字段压缩结果、序列集合压缩结果以及预设结尾标志,所述序列集合压缩结果中包括至少一个序列压缩结果,所述顺序号字段压缩结果为四个字节,每个所述序列压缩结果为一个字节,所述预设结尾标志为一个字节;基于各个分组压缩结果确定所述待压缩客户号集合的压缩结果。2.根据权利要求1所述的方法,其特征在于,所述对所述待压缩客户号分组进行压缩,得到分组压缩结果,包括:基于预设的省市编码字段映射表和吉祥数字段映射表对所述待压缩客户号分组进行转码,转码后的顺序号字段为四个字节,转码后的每个序列包括省市编码字段映射值和吉祥数字段映射值,所述省市编码字段映射值为一个字节,所述吉祥数字段映射值为一个字节;将转码后的每个序列中的省市编码字段映射值和吉祥数字段映射值合并,得到合并后的序列,所述合并后的序列为一个字节,所述字节的低六位对应省市编码字段映射值,高两位对应吉祥数字段映射值;对所述转码后的顺序号字段和合并后的序列进行二进制编码,得到所述待压缩客户号分组的二进制表示;在所述待压缩客户号分组的二进制表示末尾添加预设结尾标志,得到分组压缩结果。3.根据权利要求1所述的方法,其特征在于,所述获取待压缩客户号集合,包括:获取原始客户号集合,所述原始客户号集合包括多个原始客户号,每个原始客户号包括固定值字段、省市编码字段、顺序号字段、校验码字段和吉祥数字段;对所述原始客户号集合中每个原始客户号进行清洗,消除每个原始客户号中的固定值字段和校验码字段,得到待压缩客户号集合。4.根据权利要求1所述的方法,其特征在于,所述对所述多个待压缩客户号进行分组,得到多个待压缩客户号分组,包括:针对每个待压缩客户号,以所述待压缩客户号的顺序号字段为键,以所述待压缩客户号的省市编码字段和吉祥数字段组成的序列为值,得到所述待压缩客户号对应的键值对;将各个待压缩客户号对应的键值对中,具有相同的键的键值对划定为同一分组,得到多个所述待压缩客户号分组。5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述基于各个分组压缩结果确定所述待压缩客户号集合的压缩结果,包括:将各个分组压缩结果进行组合,得到组合后的压缩结果;将所述组合后的压缩结果确定为所述待压缩客户号集合的压缩结果;
或者,采用预设的压缩算法对所述组合后的压缩结果进行再次压缩,得到所述待压缩客户号集合的压缩结果。6.一种客户号解压方法,其特征在于,包括:获取压缩结果,所述压缩结果包括多个分组压缩结果,每个分组压缩结果包括顺序号字段压缩结果、序列集合压缩结果以及预设结尾标志,所述序列集合压缩结果中包括至少一个序列压缩结果,所述顺序号字段压缩结果为四个...

【专利技术属性】
技术研发人员:申文龙李龙
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1