数据脱敏方法、装置、系统及计算机可读介质制造方法及图纸

技术编号:29674324 阅读:10 留言:0更新日期:2021-08-13 21:56
本发明专利技术涉及一种数据脱敏方法、装置、系统及计算机可读介质,加载格式化原始数据表,使得原始数据表中的若干字段能够被处理,和加载根据随机周期变动的词库;获得不同于已标定密钥的一个随机偏移量作为统一密钥,对每个所述字段进行正则识别并标记,对于被普通标记的字段,将所述字段进行分词,然后进行词语整理,对于其中的词语进行相应词库内偏移处理,以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据;对于被特殊标记的字段,将所述字段进行分段偏移脱敏生成所述字段的脱敏数据;将脱敏数据存储进所述字段。本发明专利技术数据脱敏方法、装置以及系统,可以安全、可靠、快速地对原始数据进行脱敏和生成新的脱敏数据。

【技术实现步骤摘要】
数据脱敏方法、装置、系统及计算机可读介质
本专利技术涉及金融数据处理和数据安全领域,尤其涉及银行数据脱敏的方法,并还涉及使用该银行数据脱敏方法的装置、系统和计算机可读介质。
技术介绍
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号、微信号、邮箱、账号、地址、姓名、账户名称等信息都需要进行数据脱敏。基于互联网络的大数据环境已经逐步应用于了包括银行在内的各大企业。企业敏感数据的所有权和使用权缺乏明确界定和管理,可能造成用户隐私信息的泄露和企业内部数据的泄露,直接造成企业声誉和经济的双重损失。从外部来看,数据即价值,大数据平台中复杂、敏感、全面的数据无疑会吸引更多的潜在攻击者。同时,数据的大量汇集,使得黑客或者其他非法试图使用数据的人成功攻击一次就能获得更多数据,极大降低了黑客或者违法的进攻成本。因此,基于互联网的大数据应用已经成为网络攻击的显著目标。大数据平台安全能力的严重缺失和风险的普遍存在,导致大数据平台本身就是脆弱的,对企业数据安全造成了极大的风险,对企业来说是难以忽视的风险点。在基于互联网络下的大数据环境,数据多是以传统的存储形式,各种类型的数据也并非是脱敏后进行存储。在访问数据时,对所访问的数据进行敏感检测同时进行脱敏,是大数据和互联网环境下实现数据安全访问的重要保障。在金融系统中,特别是涉及银行的计算机系统中,生产系统往往可以通过严格的网络和数据库安全机制等工具保证生产系统的数据绝对不可对非生产系统的人员或用户泄漏。但是基于银行的研发目的或者统计、审计等独立于生产系统和环境的数据提供正在变得越来越普遍和经常,前述种类的应用与生产系统类似,都是在大数据和互联网基础上所建构的,在这种环境下,数据泄漏有时可以说是不可避免的,特别是对于一些非生产的外围系统或外包系统的参与人员而言,将脱敏后的数据有意或无意泄露,是不可避免的。因此,将生产环境中的实际数据进行脱敏并使得其不可反向得出原始数据以及使得脱敏后的数据仍然满足与原始数据在非生产系统中的高度可用性和应用一致性提出了越来越迫切的要求,例如,脱敏后的数据应当与原始数据一样可以用来测试即将进入生产系统上线的新软件和新系统并且该等测试满足投产标准,或者得出精确的统计结果,或者可以精确地用于稽核审计系统或其他系统得出精确判断或预测结果等等。现有的脱敏方法,往往是诸如图1的方式进行的,首先由生产系统的操作人员根据经验或者一些实际要求将生产系统中的敏感数据人工进行编辑汇总及挑选,找到每次相应业务系统中所需数据,放入脱敏服务器,然后用传统的遮罩或随机脱敏,得出相应业务系统中所需的脱敏数据放入业务系统的数据库供应用使用。这种现有的脱敏方法,消耗大量的操作人员的时间,并且从脱敏数据反向得出原始数据,特别是其中的极度重要的敏感数据,在某些情况下变得较为容易。而且,该种脱敏方法得到的脱敏数据在应用于相关系统时,往往与原始数据应用在该种系统中的结果偏差巨大,字段间的关联性缺失,例如,不能保证用脱敏数据测试后的新软件或新系统能够无故障地接入生产系统;还例如,统计或稽核审计系统或其他系统根据脱敏数据得到的结果的失真或偏差巨大。
技术实现思路
针对上述现有技术中的不足,本专利技术提供一种数据脱敏方法、装置、系统及计算机可读介质,用以解决上述至少一个技术问题。第一方面,本专利技术提供了一种数据脱敏方法。在本专利技术第一方面的一个实施例中,加载格式化原始数据表,使得原始数据表中的若干字段能够被处理,和加载根据随机周期变动的词库;获得不同于已标定密钥的一个随机偏移量作为统一密钥,记录所述统一密钥为一个新的已标定密钥并保持所述统一密钥在所述处理中为固定值;对每个所述字段进行正则识别并标记,使得根据所述标记进行相应的所述处理;所述标记包括普通标记和特殊标记;对于被所述普通标记的所述字段,将所述字段进行分词,然后进行词语整理,对于其中的词语进行相应词库内偏移处理,以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据;对于被所述特殊标记的所述字段,将所述字段进行分段偏移脱敏生成所述字段的脱敏数据;将所述脱敏数据存储进所述字段。在本专利技术第一方面的又一个实施例中,所述的词库包括特征库和/或通用库;其中所述的特征库包括特殊字符码表,和/或别称码表,和/或空字符码表,和/或特殊字符码表,和/或词性码表,和/或字义码表,和/或特殊联动码表;其中所述的通用库至少包括预存储的一个通用编码表;还包括至少一个规则集;所述的脱敏数据包括至少一个结果库。在本专利技术第一方面的再一个实施例中,所述的对于被所述普通标记的所述字段,将所述字段进行分词包括如下步骤:步骤一,将字段内所有字符拆分为单独字符;步骤二,从左至右读取单独字符,判断是否读取到下一单独字符,如果为否,临时队列字符组成词语进入结果栈,清空临时队列,跳出;如果为是,跳转到步骤三;步骤三,判断是否为空字符;如果为是,临时队列字符组成词语进入结果栈,清空临时队列,跳转到步骤二;如果为否,跳转到步骤四;步骤四,字符放入临时队列;步骤五,临时队列中,依据队列中字符字义构成临时队列的字符组词性;步骤六,字符组词性判断;如果为未知,跳转到步骤七;如果为已知,跳转到步骤八;步骤七,词性码表中的枚举不可用表中查询匹配;跳转到步骤九;步骤八,词性码表中的一个或多个已知词性表中查询匹配;跳转到步骤九;步骤九,判断匹配结果;如果存在完全一致匹配,跳转到步骤十一;如果存在严格子串匹配,跳转到步骤二;如果不存在匹配,跳转到步骤十;步骤十,判断上一次匹配存在且为严格子串,如果为是,跳转到步骤十三;如果为否,跳转到步骤十二;步骤十一,字符组词性调整为对应匹配表的词性,成词语后进入结果栈,清空临时队列;跳转到步骤二;步骤十二,字符组词性调整为未知,成词语后进入结果栈,清空临时队列;跳转到步骤二;步骤十三,当前字符退出临时队列,字符组词性不变;当前字符组成词语词性设为未知,顺序进入结果栈,清空临时队列,跳转到步骤二;在本专利技术第一方面的另一个实施例中,所述的词语整理包括如下步骤:步骤二十一,将结果栈中词语逆向读取;步骤二十二,从右向左读取单个词语;判断是否读取到下一词语,如果否,临时栈中连续同词性词语组合为新的词语,词性不变,跳出;如果是,跳转到步骤二十三;步骤二十三,词语放入临时栈;步骤二十四,由临时栈中词语顺序、词语词性与规则集进行比对;步骤二十五,判断是否调整;如果否,跳转到步骤二十二;如果是,跳转到步骤二十六;步骤二十六,根据规则集中匹配条件选择修改当前词语词性或选择临时栈中多个词语组合成新的词语;跳转到步骤二十二。在本专利技术第一方面的还一本文档来自技高网
...

【技术保护点】
1.一种数据脱敏方法,其特征在于,/n加载格式化原始数据表,使得原始数据表中的若干字段能够被处理,和加载根据随机周期变动的词库;/n获得不同于已标定密钥的一个随机偏移量作为统一密钥,记录所述统一密钥为一个新的已标定密钥并保持所述统一密钥在所述处理中为固定值;/n对每个所述字段进行正则识别并标记,使得根据所述标记进行相应的所述处理;/n所述标记包括普通标记和特殊标记;/n对于被所述普通标记的所述字段,将所述字段进行分词,然后进行词语整理,对于其中的词语进行相应词库内偏移处理,以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据;/n对于被所述特殊标记的所述字段,将所述字段进行分段偏移脱敏生成所述字段的脱敏数据;/n将所述脱敏数据存储进所述字段。/n

【技术特征摘要】
1.一种数据脱敏方法,其特征在于,
加载格式化原始数据表,使得原始数据表中的若干字段能够被处理,和加载根据随机周期变动的词库;
获得不同于已标定密钥的一个随机偏移量作为统一密钥,记录所述统一密钥为一个新的已标定密钥并保持所述统一密钥在所述处理中为固定值;
对每个所述字段进行正则识别并标记,使得根据所述标记进行相应的所述处理;
所述标记包括普通标记和特殊标记;
对于被所述普通标记的所述字段,将所述字段进行分词,然后进行词语整理,对于其中的词语进行相应词库内偏移处理,以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据;
对于被所述特殊标记的所述字段,将所述字段进行分段偏移脱敏生成所述字段的脱敏数据;
将所述脱敏数据存储进所述字段。


2.根据权利要求1所述数据脱敏方法,其特征在于:所述的词库包括特征库和/或通用库;
其中所述的特征库包括特殊字符码表,和/或别称码表,和/或空字符码表,和/或特殊字符码表,和/或词性码表,和/或字义码表,和/或特殊联动码表;
其中所述的通用库至少包括预存储的一个通用编码表;
还包括至少一个规则集;
所述的脱敏数据包括至少一个结果库。


3.根据权利要求2所述数据脱敏方法,其特征在于:所述的对于被所述普通标记的所述字段,将所述字段进行分词包括如下步骤:
步骤一,将字段内所有字符拆分为单独字符;
步骤二,从左至右读取单独字符,判断是否读取到下一单独字符,如果为否,临时队列字符组成词语进入结果栈,清空临时队列,跳出;如果为是,跳转到步骤三;
步骤三,判断是否为空字符;如果为是,临时队列字符组成词语进入结果栈,清空临时队列,跳转到步骤二;如果为否,跳转到步骤四;
步骤四,字符放入临时队列;
步骤五,临时队列中,依据队列中字符字义构成临时队列的字符组词性;
步骤六,字符组词性判断;如果为未知,跳转到步骤七;如果为已知,跳转到步骤八;
步骤七,词性码表中的枚举不可用表中查询匹配;跳转到步骤九;
步骤八,词性码表中的一个或多个已知词性表中查询匹配;跳转到步骤九;
步骤九,判断匹配结果;如果存在完全一致匹配,跳转到步骤十一;如果存在严格子串匹配,跳转到步骤二;如果不存在匹配,跳转到步骤十;
步骤十,判断上一次匹配存在且为严格子串,如果为是,跳转到步骤十三;如果为否,跳转到步骤十二;
步骤十一,字符组词性调整为对应匹配表的词性,成词语后进入结果栈,清空临时队列;跳转到步骤二;
步骤十二,字符组词性调整为未知,成词语后进入结果栈,清空临时队列;跳转到步骤二;
步骤十三,当前字符退出临时队列,字符组词性不变;当前字符组成词语词性设为未知,顺序进入结果栈,清空临时队列,跳转到步骤二。


4.根据权利要求2所述数据脱敏方法,其特征在于:所述的词语整理包括如下步骤:
步骤二十一,将结果栈中词语逆向读取;
步骤二十二,从右向左读取单个词语;判断是否读取到下一词语,如果否,临时栈中连续同词性词语组合为新的词语,词性不变,跳出;如果是,跳转到步骤二十三;
步骤二十三,词语放入临时栈;
步骤二十四,由临时栈中词语顺序、词语词性与规则集进行比对;
步骤二十五,判断是否调整;如果否,跳转到步骤二十二;如果是,跳转到步骤二十六;
步骤二十六,根据规则集中匹配条件选择修改当前词语词性或选择临时栈中多个词语组合成新的词语;跳转到步骤二十二。


5.根据权利要求2所述数据脱敏方法,其特征在于:所述的词语进行相应词库内偏移处理,以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据包括如下步骤:
步骤三十一,临时栈中连续同词性词语组合为新的词语,词性不变;
步骤三十三,依次读取临时栈中词语,判断是否读取到下一词语;如果否,跳转到步骤三十四;如果是,跳转到步骤三十五;
步骤三十四,结果队列词语拼接,顺序导出得到偏移后字段,存入结果库,跳出;
步骤三十五,判断是否为未知词性;如果否,跳转到步骤三十六;如果是,跳转到步骤五十一;
步骤三十六,为词性对应的词性码表构建所述规则集中的关键帧映射,当前词语在对应的词性码表中查...

【专利技术属性】
技术研发人员:朱孔亮史晨阳彭晓孙纪周邢世伟
申请(专利权)人:中国光大银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1