【技术实现步骤摘要】
一种社保信息处理方法及系统
[0001]本专利技术涉及数据处理
,具体涉及一种社保信息处理方法及系统
。
技术介绍
[0002]社保信息处理是一项关键的公共服务,旨在管理和维护个体和家庭的社会保险信息,包括医疗保险
、
养老金
、
失业保险等
。
随着人口的增长和社会保险体系的不断发展,社保信息的规模和复杂性逐渐增加,对数据的存储和处理压缩越来越大,故需要对社保信息进行压缩存储以便于对社保数据进行存储管理
。
[0003]在对社保信息进行存储时,由于社保信息中存在一些高频率出现字符,例如性别
、
姓氏等字符出现频率较高,即社保信息数据中的字符频率差异较大,故考虑利用霍夫曼编码对数据进行压缩处理
。
霍夫曼编码在对数据进行压缩后会将原始社保信息数据全部编写为“01”编码数据,编码后的数据具有较高的重复性,故考虑将利用霍夫曼编码后的“01”编码利用
LZ77
算法进行压缩
。
[0004] ...
【技术保护点】
【技术特征摘要】
1.
一种社保信息处理方法,其特征在于,该方法包括以下步骤:获取社保信息数据,所述社保信息数据中包含若干字符;依据社保信息数据中的字符构成字符序列,获取字符序列中每一个字符和字符串的频数;根据字符序列中每一个字符的频数构建霍夫曼树,根据字符序列中任意一个字符串在其他字符串的频数得到字符序列中任意一个字符串的优选程度,依据字符序列中任意一个字符串的优选程度对字符串进行剔除,得到更新后的字符序列;将更新后的字符序列中任意一个字符记为目标字符,根据更新后的字符序列中存在目标字符的字符串的频数得到更新后的字符序列中目标字符的优先级,依据更新后的字符序列中任意一个字符的优先级得到字符优先级序列;获取霍夫曼树中字符的所有编码,获取所有编码中任意两个编码的重复长度
、
重复次数及重复距离,根据所有编码中任意两个编码的重复长度
、
重复次数及重复距离得到编码优先级序列;根据字符优先级序列和编码优先级序列将霍夫曼树重构,得到重构霍夫曼树,根据重构霍夫曼树对社保信息数据进行编码得到编码数据并将编码数据压缩和存储
。2.
根据权利要求1所述一种社保信息处理方法,其特征在于,所述依据社保信息数据中的字符构成字符序列,获取字符序列中每一个字符和字符串的频数,包括的具体步骤如下:按照从左到右的顺序获取社保信息数据中所有不同的字符,将社保信息数据中所有不同的字符组成的序列作为初始字符序列,并获取初始字符序列中每个字符在社保信息数据中出现的频数,将社保信息数据中第一个字符和第二个字符组成的字符串,记为第一字符串,将第一字符串加入到初始字符序列中最后一个字符的右侧,并获取第一字符串在社保信息数据中出现的频数;将社保信息数据中第一个字符
、
第二个字符以及第三个字符组成的字符串,记为第二字符串,将第二字符串加入到初始字符序列中第一字符串的右侧,并获取第二字符串在社保信息数据中出现的频数,按照从左到右的顺序获取第二字符串中所有连续的子字符串,将第二字符串中所有连续的子字符串加入到初始字符序列中第二字符串的右侧,并获取第二字符串中每一个连续的子字符串在社保信息数据中出现的频数;将社保信息数据中第一个字符
、
第二个字符
、
第三个字符以及第四个字符组成的字符串,记为第三字符串,将第三字符串加入到初始字符序列中第二字符串的右侧,并获取第三字符串在社保信息数据中出现的频数,将第三字符串中所有连续的子字符串加入到初始字符序列中第三字符串的右侧,并获取第三字符串中每一个连续的子字符串在社保信息数据中出现的频数;若第三字符串的任意一个子字符串在第二字符串的子字符串中出现,则不将第三字符串中该子字符串加入到初始字符序列中第三字符串的右侧,只将第二字符串中该子字符串的频数加一;以此类推,直至获取到社保信息数据中所有字符组成的第
N
字符串,
N
为社保信息数据中字符的总个数减一,将初始字符序列中频数为1的字符串进行去除,最终得到字符序列和字符序列中每一个字符和字符串的频数
。3.
根据权利要求2所述一种社保信息处理方法,其特征在于,所述根据字符序列中任意一个字符串在其他字符串的频数得到字符序列中任意一个字符串的优选程度,包括的具体
步骤如下:式中,为超参数,为字符序列中第
A
个字符串在字符序列中第
a
个子字符串的频数,为字符序列中第
A
个字符串在字符序列中所有子字符串的个数,为字符序列中第
A
个字符串的频数,为以自然常数为底的指数函数,为字符序列中第
A
个字符串的优选程度
。4.
根据权利要求1所述一种社保信息处理方法,其特征在于,所述根据字符序列中任意一个字符串的优选程度对字符串进行剔除,得到更新后的字符序列,包括的具体步骤如下:预设第一阈值,记为
TH1
,将字符序列中每一个字符串的优...
【专利技术属性】
技术研发人员:沈志,张智,
申请(专利权)人:湖南立人科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。