数据脱敏方法、装置、系统及计算机可读介质制造方法及图纸

技术编号：29674324 阅读：19 留言：0更新日期：2021-08-13 21:56

本发明专利技术涉及一种数据脱敏方法、装置、系统及计算机可读介质，加载格式化原始数据表，使得原始数据表中的若干字段能够被处理，和加载根据随机周期变动的词库；获得不同于已标定密钥的一个随机偏移量作为统一密钥，对每个所述字段进行正则识别并标记，对于被普通标记的字段，将所述字段进行分词，然后进行词语整理，对于其中的词语进行相应词库内偏移处理，以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据；对于被特殊标记的字段，将所述字段进行分段偏移脱敏生成所述字段的脱敏数据；将脱敏数据存储进所述字段。本发明专利技术数据脱敏方法、装置以及系统，可以安全、可靠、快速地对原始数据进行脱敏和生成新的脱敏数据。

全部详细技术资料下载

【技术实现步骤摘要】
数据脱敏方法、装置、系统及计算机可读介质
本专利技术涉及金融数据处理和数据安全领域，尤其涉及银行数据脱敏的方法，并还涉及使用该银行数据脱敏方法的装置、系统和计算机可读介质。
技术介绍
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下，在不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号、卡号、客户号、微信号、邮箱、账号、地址、姓名、账户名称等信息都需要进行数据脱敏。基于互联网络的大数据环境已经逐步应用于了包括银行在内的各大企业。企业敏感数据的所有权和使用权缺乏明确界定和管理，可能造成用户隐私信息的泄露和企业内部数据的泄露，直接造成企业声誉和经济的双重损失。从外部来看，数据即价值，大数据平台中复杂、敏感、全面的数据无疑会吸引更多的潜在攻击者。同时，数据的大量汇集，使得黑客或者其他非法试图使用数据的人成功攻击一次就能获得更多数据，极大降低了黑客或者违法的进攻成本。因此，基于互联网的大数据应用已经成为网络攻击的显著目标...

【技术保护点】
1.一种数据脱敏方法，其特征在于，/n加载格式化原始数据表，使得原始数据表中的若干字段能够被处理，和加载根据随机周期变动的词库；/n获得不同于已标定密钥的一个随机偏移量作为统一密钥，记录所述统一密钥为一个新的已标定密钥并保持所述统一密钥在所述处理中为固定值；/n对每个所述字段进行正则识别并标记，使得根据所述标记进行相应的所述处理；/n所述标记包括普通标记和特殊标记；/n对于被所述普通标记的所述字段，将所述字段进行分词，然后进行词语整理，对于其中的词语进行相应词库内偏移处理，以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据；/n对于被所述特殊标记的所述字段，将所述字段进...

【技术特征摘要】
1.一种数据脱敏方法，其特征在于，
加载格式化原始数据表，使得原始数据表中的若干字段能够被处理，和加载根据随机周期变动的词库；
获得不同于已标定密钥的一个随机偏移量作为统一密钥，记录所述统一密钥为一个新的已标定密钥并保持所述统一密钥在所述处理中为固定值；
对每个所述字段进行正则识别并标记，使得根据所述标记进行相应的所述处理；
所述标记包括普通标记和特殊标记；
对于被所述普通标记的所述字段，将所述字段进行分词，然后进行词语整理，对于其中的词语进行相应词库内偏移处理，以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据；
对于被所述特殊标记的所述字段，将所述字段进行分段偏移脱敏生成所述字段的脱敏数据；
将所述脱敏数据存储进所述字段。

2.根据权利要求1所述数据脱敏方法，其特征在于：所述的词库包括特征库和/或通用库；
其中所述的特征库包括特殊字符码表，和/或别称码表，和/或空字符码表，和/或特殊字符码表，和/或词性码表，和/或字义码表，和/或特殊联动码表；
其中所述的通用库至少包括预存储的一个通用编码表；
还包括至少一个规则集；
所述的脱敏数据包括至少一个结果库。

3.根据权利要求2所述数据脱敏方法，其特征在于：所述的对于被所述普通标记的所述字段，将所述字段进行分词包括如下步骤：
步骤一，将字段内所有字符拆分为单独字符；
步骤二，从左至右读取单独字符，判断是否读取到下一单独字符，如果为否，临时队列字符组成词语进入结果栈，清空临时队列，跳出；如果为是，跳转到步骤三；
步骤三，判断是否为空字符；如果为是，临时队列字符组成词语进入结果栈，清空临时队列，跳转到步骤二；如果为否，跳转到步骤四；
步骤四，字符放入临时队列；
步骤五，临时队列中，依据队列中字符字义构成临时队列的字符组词性；
步骤六，字符组词性判断；如果为未知，跳转到步骤七；如果为已知，跳转到步骤八；
步骤七，词性码表中的枚举不可用表中查询匹配；跳转到步骤九；
步骤八，词性码表中的一个或多个已知词性表中查询匹配；跳转到步骤九；
步骤九，判断匹配结果；如果存在完全一致匹配，跳转到步骤十一；如果存在严格子串匹配，跳转到步骤二；如果不存在匹配，跳转到步骤十；
步骤十，判断上一次匹配存在且为严格子串，如果为是，跳转到步骤十三；如果为否，跳转到步骤十二；
步骤十一，字符组词性调整为对应匹配表的词性，成词语后进入结果栈，清空临时队列；跳转到步骤二；
步骤十二，字符组词性调整为未知，成词语后进入结果栈，清空临时队列；跳转到步骤二；
步骤十三，当前字符退出临时队列，字符组词性不变；当前字符组成词语词性设为未知，顺序进入结果栈，清空临时队列，跳转到步骤二。

4.根据权利要求2所述数据脱敏方法，其特征在于：所述的词语整理包括如下步骤：
步骤二十一，将结果栈中词语逆向读取；
步骤二十二，从右向左读取单个词语；判断是否读取到下一词语，如果否，临时栈中连续同词性词语组合为新的词语，词性不变，跳出；如果是，跳转到步骤二十三；
步骤二十三，词语放入临时栈；
步骤二十四，由临时栈中词语顺序、词语词性与规则集进行比对；
步骤二十五，判断是否调整；如果否，跳转到步骤二十二；如果是，跳转到步骤二十六；
步骤二十六，根据规则集中匹配条件选择修改当前词语词性或选择临时栈中多个词语组合成新的词语；跳转到步骤二十二。

5.根据权利要求2所述数据脱敏方法，其特征在于：所述的词语进行相应词库内偏移处理，以及其中的非词语进行以字母或数字或汉字的单独偏移处理生成所述字段的脱敏数据包括如下步骤：
步骤三十一，临时栈中连续同词性词语组合为新的词语，词性不变；
步骤三十三，依次读取临时栈中词语，判断是否读取到下一词语；如果否，跳转到步骤三十四；如果是，跳转到步骤三十五；
步骤三十四，结果队列词语拼接，顺序导出得到偏移后字段，存入结果库，跳出；
步骤三十五，判断是否为未知词性；如果否，跳转到步骤三十六；如果是，跳转到步骤五十一；
步骤三十六，为词性对应的词性码表构建所述规则集中的关键帧映射，当前词语在对应的词性码表中查...

【专利技术属性】
技术研发人员：朱孔亮，史晨阳，彭晓，孙纪周，邢世伟，
申请(专利权)人：中国光大银行股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人