一种数据脱敏方法、终端设备及存储介质技术

技术编号:33344449 阅读:29 留言:0更新日期:2022-05-08 09:36
本发明专利技术涉及一种数据脱敏方法、终端设备及存储介质,该方法中包括:基于待脱敏的姓名或身份证号中的具有固定数量种类的特征构建对应的特征集;从特征集中查找对应特征所在的位置,并将查找到的位置与固定偏移量的运算结果作为该特征对应的脱敏后的特征在特征集中的位置,进而获得脱敏后的特征;结合脱敏前或脱敏后的特征在特征集中的位置,计算其他特征对应的脱敏后的特征;将所有脱敏后的特征按顺序拼接为脱敏后的姓名或身份证号。本发明专利技术使得脱敏后的即保留了原有格式,又使其与真实数据混淆在一起也无法立即分辨出来。淆在一起也无法立即分辨出来。淆在一起也无法立即分辨出来。

【技术实现步骤摘要】
一种数据脱敏方法、终端设备及存储介质


[0001]本专利技术涉及脱敏
,尤其涉及一种数据脱敏方法、终端设备及存储介质。

技术介绍

[0002]数据脱敏,顾名思义,是将数据中的敏感信息(比如:姓名,身份证号码,手机号码,地址,邮箱等)通过脱敏规则进行数据变形,实现对敏感信息的屏蔽。业界常见的脱敏规则有:替换、加密、重排、掩码、截断,亦可以通过期望的算法自定义脱敏规则。随着大数据时代的到来,数据作为信息的载体往往含有很高的价值,描述人的数据更为敏感,使得人员信息的数据安全尤为重要。
[0003]现有的人员信息数据脱敏,大多数采用两种方案:
[0004](1)隐藏或替换关键敏感信息,比如姓名脱敏用

*

替换名,手机号隐藏中间4位数字,这种方法最简单,所以也被普遍使用,但该方法脱敏后的数据还保留一部分真实性,有可能出现风险,且存在严重不可逆性和脱敏后数据欺骗性全无的问题。Mask是最常用的替换式数据脱敏方法,该方法数据长度不变,只保留部分数据信息,比如:

123456789

脱敏为

123***789



张三

脱敏为

张*

。该方法保留了数据的格式特征,但是数据不可逆性和脱敏后易重复性暴露无遗。
[0005](2)以人为单位或以批次为单位生成专属的密钥加密,比如在自定义脱敏规则的前提下,绑定身份证号和密钥的关系,此人信息数据统一使用该关联密钥加密,该方法数据安全得到了足够的保证,但往往因大量数据频繁脱敏,存储及查询密钥及关联信息会造成资源浪费,并且数据捆绑比较严重,单条数据或单个字段数据逆脱敏困难。Hashing是最常用的加密式数据脱敏方法,其将不定长数据映射成定长的值,比如:

14234569874

脱敏为

1583426531



李四

脱敏为

4774325433

。该方法很大程度上保证了数据的安全性和一一映射,但是大大降低了数据类型的辨识度。

技术实现思路

[0006]为了解决上述问题,本专利技术提出了一种数据脱敏方法、终端设备及存储介质。
[0007]具体方案如下:
[0008]一种数据脱敏方法,包括以下步骤:
[0009]基于待脱敏的姓名或身份证号中的具有固定数量种类的特征构建对应的特征集;
[0010]从特征集中查找对应特征所在的位置,并将查找到的位置与固定偏移量的运算结果作为该特征对应的脱敏后的特征在特征集中的位置,进而获得脱敏后的特征;
[0011]结合脱敏前或脱敏后的特征在特征集中的位置,计算其他特征对应的脱敏后的特征;
[0012]将所有脱敏后的特征按顺序拼接为脱敏后的姓名或身份证号。
[0013]进一步的,当对姓名进行脱敏时,设定用于构建特征集的特征为姓名中表征姓的第一个汉字,对应的特征集为姓字符集。
[0014]进一步的,当对姓名进行脱敏时,结合脱敏前或脱敏后的特征在特征集中的位置,计算其他特征对应的脱敏后的特征的具体方法为:针对第一个汉字之后的其他汉字,将各汉字在GB2312字符集中的位置与各汉字对应的位置偏移相加,将相加后的值在十六进制的B0A0

F7EF位置范围内循环取值的结果作为各汉字对应的脱敏后的汉字在GB2312字符集中的位置,根据位置从GB2312字符集中查找得到各汉字脱敏后的汉字;其中,第二个汉字对应的位置偏移为第一个汉字对应的脱敏后的汉字在姓字符集中的位置;第二个汉字之后的汉字对应的位置偏移为前一个汉字对应的脱敏后的汉字在GB2312字符集中的位置。
[0015]进一步的,当对身份证号进行脱敏时,设定用于构建特征集的特征为身份证号中表征地区编码的前6个字符,对应的特征集为地区编码字符集。
[0016]进一步的,当对身份证号进行脱敏时,结合脱敏前或脱敏后的特征在特征集中的位置,计算其他特征对应的脱敏后的特征的具体方法为:设定脱敏前和脱敏后的特征在特征集中的位置分别为A和B,将待脱敏身份证号按照其组成拆分为6位的地区编码、4位的年份、2位的月份、2位的日期、3位的顺位码和1位的校验码;将年份减去B的值作为脱敏后的年份;将月份加上A的值在1

12的范围内循环取值的结果作为脱敏后的月份;将日期加上A的值在新月份对应的日期内循环取值的结果作为脱敏后的日期;计算顺序码加上B的值在1

1000的范围内循环取值的结果C,将1000与C的差值作为脱敏后的顺序码;将脱敏后的地区编码、年份、月份、日期和顺位码拼接后通过身份证校验算法计算得到的新的校验码。
[0017]一种数据脱敏终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0018]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0019]本专利技术采用如上技术方案,使得脱敏后的即保留了原有格式,又使其与真实数据混淆在一起也无法立即分辨出来。
附图说明
[0020]图1所示为本专利技术实施例一的流程图。
具体实施方式
[0021]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。
[0022]现结合附图和具体实施方式对本专利技术进一步说明。
[0023]实施例一:
[0024]本专利技术实施例提供了一种数据脱敏方法,如图1所示,所述方法包括以下步骤:
[0025]S1:基于待脱敏的姓名或身份证号中的具有固定数量种类的特征构建对应的特征集。
[0026]S2:从特征集中查找对应特征所在的位置,并将查找到的位置与固定偏移量的运算结果作为该特征对应的脱敏后的特征在特征集中的位置,进而获得脱敏后的特征;
[0027]S3:结合脱敏前或脱敏后的特征在特征集中的位置,计算其他特征对应的脱敏后的特征;
[0028]S4:将所有脱敏后的特征按顺序拼接为脱敏后的待脱敏的姓名或身份证号。
[0029]该实施例中设定在步骤S2中查找到的位置与固定偏移量的运算结果的计算方法为:将查找到的位置与固定偏移量相加后,将相加后的值在特征集的位置范围内循环取值的结果作为查找到的位置与固定偏移量的运算结果。循环取值即当相加后的值大于范围内的最大值时,将该值多次减去该最大值直至处于范围内,将处于范围内的值作为循环取值的结果。如范围为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据脱敏方法,其特征在于,包括以下步骤:基于待脱敏的姓名或身份证号中的具有固定数量种类的特征构建对应的特征集;从特征集中查找对应特征所在的位置,并将查找到的位置与固定偏移量的运算结果作为该特征对应的脱敏后的特征在特征集中的位置,进而获得脱敏后的特征;结合脱敏前或脱敏后的特征在特征集中的位置,计算其他特征对应的脱敏后的特征;将所有脱敏后的特征按顺序拼接为脱敏后的姓名或身份证号。2.根据权利要求1所述的数据脱敏方法,其特征在于:当对姓名进行脱敏时,设定用于构建特征集的特征为姓名中表征姓的第一个汉字,对应的特征集为姓字符集。3.根据权利要求2所述的数据脱敏方法,其特征在于:当对姓名进行脱敏时,结合脱敏前或脱敏后的特征在特征集中的位置,计算其他特征对应的脱敏后的特征的具体方法为:针对第一个汉字之后的其他汉字,将各汉字在GB2312字符集中的位置与各汉字对应的位置偏移相加,将相加后的值在十六进制的B0A0

F7EF位置范围内循环取值的结果作为各汉字对应的脱敏后的汉字在GB2312字符集中的位置,根据位置从GB2312字符集中查找得到各汉字脱敏后的汉字;其中,第二个汉字对应的位置偏移为第一个汉字对应的脱敏后的汉字在姓字符集中的位置;第二个汉字之后的汉字对应的位置偏移为前一个汉字对应的脱敏后的汉字在GB2312字符集中的位置。4.根据权利要求1所述的数据脱敏方法,其特征...

【专利技术属性】
技术研发人员:刘东东张磊姚志强邢磊
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1