一种基于中英敏感字典的可控并发数据脱敏方法和装置制造方法及图纸

技术编号:32837022 阅读:10 留言:0更新日期:2022-03-26 20:58
本发明专利技术提出了一种基于中英敏感字典的可控并发数据脱敏方法和装置,该方法包括如下步骤:获取元数据库的待脱敏数据,并将待脱敏数据的表结构同步至参数库中的元数据表;配置中英文敏感字典表;关联元数据表和中英文敏感字典表,获取存在敏感字段的元数据表的表名称并存储至文件A;循环遍历文件A中的表名称,创建与文件A对应的同构表,获取同构表的表结构并存储至文件B;获取文件B中字段并与中英文敏感字典表比对,按照敏感词类型进行去敏感化转换,生成脱敏脚本;输入并发参数,多并发执行脱敏脚本完成数据脱敏。本发明专利技术通过在保存数据原始特征的同时改变其数值,使数据依旧可以被业务正常使用,同时避免数据泄露的风险。同时避免数据泄露的风险。同时避免数据泄露的风险。

【技术实现步骤摘要】
一种基于中英敏感字典的可控并发数据脱敏方法和装置


[0001]本专利技术涉及数据脱敏
,具体而言,涉及一种基于中英敏感字典的可控并发数据脱敏方法和装置。

技术介绍

[0002]随着银行业务的快速发展,在银行生产数据库中,储存着大量业务生产系统产生的敏感信息,例如储户个人身份信息、手机号码、身份证、银行账户信息、资金信息等。而这些数据在银行业很多工作场景中都会得到使用,例如业务分析、开发测试、审计监管等,甚至是一些外包业务等方面,使用的都是真实的业务数据和信息。如果这些数据发生泄露、损坏,不仅会给银行带来经济上的损失,更重要的是会大大影响用户对于银行的信任度。如何保证信息安全的前提下使用这些数据已经成为银行必须面对的一个重要的问题。
[0003]目前,为了对开发测试过程中使用的真实数据保护,银行采用手工编造数据的方式向非生产环境提供数据,这种方式产生的数据,往往离散度、真实性和数据关系都无法得到保障,且手工方式会额外消耗人工成本,并且流程难以规范处理。此外,银行会将部分脱敏后的数据下发到开发环境用于测试及开发,但是随着业务发展,更多开发环境的新应用已经完全不适合使用这些老旧数据进行测试,同步更新生产环境中的核心数据迫在眉睫。

技术实现思路

[0004]鉴于上述问题,本专利技术提供了一种基于中英敏感字典的可控并发数据脱敏方法和装置,通过高效自动化脱敏程序来完成生产关键系统数据的脱敏,在保存数据原始特征的同时改变其数值,使数据依旧可以被业务正常使用,同时避免数据泄露的风险。
[0005]为解决上述技术问题,本专利技术采用的技术方案是:一种基于中英敏感字典的可控并发数据脱敏方法,包括如下步骤:获取元数据库的待脱敏数据,并将所述待脱敏数据的表结构同步至参数库中的元数据表,所述元数据表的字段列包括表名称列、表描述列、字段顺序列、字段名称列、字段类型列和字段描述列;在所述参数库中配置中英文敏感字典表,所述中英文敏感字典表的字段列包括敏感类型列、敏感词列和敏感词类型列;关联所述元数据表和中英文敏感字典表,获取存在敏感字段的所述元数据表的表名称并存储至文件A;循环遍历所述文件A中的表名称,在sandbox库中创建与所述文件A对应的同构表,获取所述同构表的表结构并存储至文件B;获取所述文件B中字段并与中英文敏感字典表比对,按照敏感词类型进行去敏感化转换,生成脱敏脚本;输入并发参数,多并发执行所述脱敏脚本完成数据脱敏。
[0006]作为优选方案,还包括:在所述参数库中配置增量参数表,所述增量参数表的字段列包括表名称列、表描述列和脱敏天数列,则在所述生成脱敏脚本之后,还包括:遍历所述文件A中的表名称,与所述增量参数表关联匹配;若未匹配上,则结合所述脱敏脚本生成单分区脱敏脚本;若匹配上,则获取所述增量参数表的脱敏天数,并结合所述脱敏脚本生成多分区脱敏脚本。
[0007]作为优选方案,所述中英文敏感字典表的敏感类型列包括中文类和英文类,则获取存在敏感字段的所述元数据表的表名称并存储至文件A,包括:通过结构化查询语言,关联所述元数据表和中英文敏感字典表,敏感类型选择中文类,判断所述元数据表的字段名称列是否包含中英文敏感字典表的敏感词列中的敏感词,若是,则将所述元数据表的表名称导出至文件A,反之,进行下一步;通过结构化查询语言,关联所述元数据表和中英文敏感字典表,敏感类型选择英文类,判断所述元数据表的字段名称列是否在中英文敏感字典表的敏感词列中存在,若是,则将所述元数据表的表名称导出至文件A,反之,不对所述元数据表进行脱敏。
[0008]作为优选方案,所述获取同构表的表结构并存储至文件B,还包括:通过正则表达式“sed

s/[][]*/;/g
’”
,对所述同构表的表结构进行预处理后存储至文件B。
[0009]作为优选方案,所述获取文件B中字段并与中英文敏感字典表比对,包括:循环读取所述文件B,获得每一行的原字段;获取原字段中使用分号分割的第一个元素,得到字段名称列;获取原字段中使用分号分割的第三个元素,得到字段描述列;将所述字段名称列与中英文敏感字典表中的英文类敏感词列进行精确匹配,或将所述字段描述列与中英文敏感字典表中的中文类敏感词列进行模糊匹配,判断所述字段名称列或字段描述列是否为敏感字段,若是,则同步获取匹配的敏感词类型,反之,所述原字段无需脱敏直接映射。
[0010]作为优选方案,所述按照敏感词类型进行去敏感化转换,包括:若所述敏感词类型为名称类,则按名称规则对所述字段列进行去敏感化改写,所述名称规则为将字段列截取第一位,并拼接“字段长度

1”个“*”;若所述敏感词类型为证件类,则按证件规则对所述字段列进行去敏感化改写,所述证件规则为将该字段列截取前6位,中间拼接8个“*”,再截取最后4位拼接。若所述敏感词类型为自定义类,则按自定义规则对所述字段列进行去敏感化改写。
[0011]作为优选方案,所述多并发执行所述脱敏脚本完成数据脱敏,包括:创建并命名管道文件,所述管道文件名为进程号;创建文件描述符,以可读可写方式关联所述管道文件;向所述管道文件中放入令牌标记;从所述管道文件中领取令牌标记,进入脱敏模块,调用并执行脱敏脚本,执行完毕后,将令牌标记放回管道文件,供新的任务领取令牌标记,持续保持并发量;待所有脱敏脚本循环执行结束,关闭文件描述符的读写。
[0012]一种基于中英敏感字典的可控并发数据脱敏装置,包括:获取同步模块,用于获取元数据库的待脱敏数据,并将所述待脱敏数据的表结构同步至参数库中的元数据表,所述元数据表的字段列包括表名称列、表描述列、字段顺序列、字段名称列、字段类型列和字段描述列;第一配置模块,用于在所述参数库中配置中英文敏感字典表,所述中英文敏感字典表的字段列包括敏感类型列、敏感词列和敏感词类型列;关联获取模块,用于关联所述元数据表和中英文敏感字典表,获取存在敏感字段的所述元数据表的表名称并存储至文件A;遍历创建模块,用于循环遍历所述文件A中的表名称,在sandbox库中创建与所述文件A对应的同构表,获取所述同构表的表结构并存储至文件B;脚本生成模块,用于获取所述文件B中字段并与中英文敏感字典表比对,按照敏感词类型进行去敏感化转换,生成脱敏脚本;并发脱敏模块,输入并发参数,多并发执行所述脱敏脚本完成数据脱敏。
[0013]作为优选方案,还包括第二配置模块和分区模块,第二配置模块用于在所述参数库中配置增量参数表,所述增量参数表的字段列包括表名称列、表描述列和脱敏天数列;所
述分区模块用于遍历所述文件A中的表名称,与所述增量参数表关联匹配;若未匹配上,则结合所述脱敏脚本生成单分区脱敏脚本;若匹配上,则获取所述增量参数表的脱敏天数,并结合所述脱敏脚本生成多分区脱敏脚本。
[0014]作为优选方案,所述中英文敏感字典表的敏感类型列包括中文类和英文类,则所述关联获取模块包括中文导出单元和英文导出单元;所述中文导出单元,用于通过结构化查询语言,关联所述元数据表和中英文敏感字典表,敏感类型选择中文类,判断所述元数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于中英敏感字典的可控并发数据脱敏方法,其特征在于,包括如下步骤:获取元数据库的待脱敏数据,并将所述待脱敏数据的表结构同步至参数库中的元数据表,所述元数据表的字段列包括表名称列、表描述列、字段顺序列、字段名称列、字段类型列和字段描述列;在所述参数库中配置中英文敏感字典表,所述中英文敏感字典表的字段列包括敏感类型列、敏感词列和敏感词类型列;关联所述元数据表和中英文敏感字典表,获取存在敏感字段的所述元数据表的表名称并存储至文件A;循环遍历所述文件A中的表名称,在sandbox库中创建与所述文件A对应的同构表,获取所述同构表的表结构并存储至文件B;获取所述文件B中字段并与中英文敏感字典表比对,按照敏感词类型进行去敏感化转换,生成脱敏脚本;输入并发参数,多并发执行所述脱敏脚本完成数据脱敏。2.根据权利要求1所述的基于中英敏感字典的可控并发数据脱敏方法,其特征在于,还包括:在所述参数库中配置增量参数表,所述增量参数表的字段列包括表名称列、表描述列和脱敏天数列,则在所述生成脱敏脚本之后,还包括:遍历所述文件A中的表名称,与所述增量参数表关联匹配;若未匹配上,则结合所述脱敏脚本生成单分区脱敏脚本;若匹配上,则获取所述增量参数表的脱敏天数,并结合所述脱敏脚本生成多分区脱敏脚本。3.根据权利要求1所述的基于中英敏感字典的可控并发数据脱敏方法,其特征在于,所述中英文敏感字典表的敏感类型列包括中文类和英文类,则获取存在敏感字段的所述元数据表的表名称并存储至文件A,包括:通过结构化查询语言,关联所述元数据表和中英文敏感字典表,敏感类型选择中文类,判断所述元数据表的字段名称列是否包含中英文敏感字典表的敏感词列中的敏感词,若是,则将所述元数据表的表名称导出至文件A,反之,进行下一步;通过结构化查询语言,关联所述元数据表和中英文敏感字典表,敏感类型选择英文类,判断所述元数据表的字段名称列是否在中英文敏感字典表的敏感词列中存在,若是,则将所述元数据表的表名称导出至文件A,反之,不对所述元数据表进行脱敏。4.根据权利要求1所述的基于中英敏感字典的可控并发数据脱敏方法,其特征在于,所述获取同构表的表结构并存储至文件B,还包括:通过正则表达式“sed

s/[][]*/;/g
’”
,对所述同构表的表结构进行预处理后存储至文件B。5.根据权利要求1所述的基于中英敏感字典的可控并发数据脱敏方法,其特征在于,所述获取文件B中字段并与中英文敏感字典表比对,包括:循环读取所述文件B,获得每一行的原字段;获取原字段中使用分号分割的第一个元素,得到字段名称列;获取原字段中使用分号分割的第三个元素,得到字段描述列;将所述字段名称列与中英文敏感字典表中的英文类敏感词列进行精确匹配,或将所述字段描述列与中英文敏感字典表中的中文类敏感词列进行模糊匹配,判断所述字段名称列
或字段描述列是否为敏感字段,若是,则同步获取匹配的敏感词类型,反之,所述原字段无需脱敏直接映射。6.根据权利要求1所述的基于中英敏感字典的可控并发数据脱敏方法,其特征在于,所...

【专利技术属性】
技术研发人员:王强
申请(专利权)人:江苏苏宁银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1