一种数据脱敏的方法、装置及电子设备制造方法及图纸

技术编号:37434817 阅读:7 留言:0更新日期:2023-05-06 09:07
本申请实施例提供一种数据脱敏的方法、装置及电子设备,用以降低现有技术中数据脱敏方法因遗漏敏感数据而引起的安全风险。该方法包括:读取待处理字段,并确定所述待处理字段在待处理数据表中的位置;其中,所述待处理字段为待处理数据表中的字段;基于所述位置,查询对应于所述待处理字段的脱敏规则,并基于所述脱敏规则中的脱敏类型,确定是否利用所述脱敏规则对所述待处理字段进行脱敏;其中,所述脱敏规则包括脱敏类型,所述脱敏类型包括样本集脱敏、和/或列字段脱敏;若是,基于所述脱敏规则对所述待处理字段进行脱敏,并利用脱敏得到的脱敏字段更新所述待处理字段。的脱敏字段更新所述待处理字段。的脱敏字段更新所述待处理字段。

【技术实现步骤摘要】
一种数据脱敏的方法、装置及电子设备


[0001]本申请涉及数据处理
,尤其涉及一种数据脱敏的方法、装置及电子设备。

技术介绍

[0002]科技进步在为大众便捷性的同时,也带来了一些隐患。尤其在互联网时代,信息安全问题首当其冲。为了进行规划、总结、便于管理,企业、事业单位等大小部门都通过大数据技术进行数据的收集、存储与共享。而一旦这些数据被收集,便面临着泄露并被违规利用的风险。
[0003]目前,Hive数据库作为一种基于Hadoop的数据仓库工具是主流数据存储工具之一。其在日常数据集成或传输使用中,通常会包含一些隐私敏感数据。例如,个人身份证信息、银行信息、酒店入住记录、交通行驶记录、支付信息、人脸信息等,这些信息一旦泄露,将对个人隐私安全及生命财产安全造成威胁。
[0004]由于Hive并不具备数据脱敏能力,因此为了降低敏感数据泄露风险,采用的方法是在用户获取数据之前进行二次处理:在不影响数据查询等功能的前提下,将真实数据转化为虚假数据。处理方法具体可分为动态脱敏和静态脱敏处理。由于静态脱敏不够灵活且存在占内存的问题,动态脱敏是普遍采用的脱敏方式。但现有技术在采用动态脱敏时,由于识别敏感数据的形式较为单一,因而存在无法灵敏感知脱敏信息的问题,导致输出应当脱敏而未被脱敏的数据,致使敏感数据的安全性受到威胁。

技术实现思路

[0005]本申请实施例提供一种数据脱敏的方法、装置及电子设备,用以降低现有技术中数据脱敏方法因遗漏敏感数据而引起的安全风险。
[0006]第一方面,本申请实施例提供一种数据脱敏的方法,包括:
[0007]读取待处理字段,并确定所述待处理字段在待处理数据表中的位置;其中,所述待处理字段为待处理数据表中的字段;
[0008]基于所述位置,查询对应于所述待处理字段的脱敏规则,并基于所述脱敏规则中的脱敏类型,确定是否利用所述脱敏规则对所述待处理字段进行脱敏;其中,所述脱敏类型包括样本集脱敏、和/或列字段脱敏;
[0009]若是,基于所述脱敏规则对所述待处理字段进行脱敏,并利用脱敏得到的脱敏字段更新所述待处理字段。
[0010]上述申请实施例中的方法通过确定待处理字段的脱敏规则,并基于不同脱敏规则(样本集脱敏、和/或列字段脱敏)确定待处理字段是否为敏感字段,继而进行脱敏。即通过识别出不同类型的敏感字段,提高敏感字段的识别准确率,进而提升了处理敏感字段的准确率,从而降低了敏感信息的安全风险。
[0011]一种可能的实施方式,所述读取待处理字段之前,还包括:
[0012]基于UDTF函数,为所述待处理数据表中的列字段添加待填充标记列;其中,所述待
填充标记列中的待填充标记与所述列字段中的所述待处理字段一一对应,所述待填充标记用于标记所述待处理字段中待脱敏字段的脱敏规则;
[0013]则所述利用脱敏得到的脱敏字段更新所述待处理字段之后,还包括:
[0014]将所述脱敏规则添加至对应于所述脱敏字段的待填充标记中。
[0015]一种可能的实施方式,所述基于所述位置,查询对应于所述待处理字段的脱敏规则,并基于所述脱敏规则中的脱敏类型,确定是否利用所述脱敏规则对所述待处理字段进行脱敏,包括:
[0016]响应于所述脱敏规则为第一脱敏规则,且所述第一脱敏规则中的第一脱敏类型为样本集脱敏,基于所述第一脱敏规则中的第一样本集标记,下载第一敏感样本集;其中,所述第一样本集标记与所述第一敏感样本集一一对应;
[0017]将所述第一敏感样本集中的敏感字段与所述待处理字段进行比对;
[0018]响应于所述待处理字段与所述第一敏感样本集中任一所述敏感字段相同,确定利用所述第一脱敏规则中的第一脱敏算法针对所述待处理字段进行脱敏;或者,
[0019]响应于所述待处理字段与所述第一敏感样本集中任一所述敏感字段均不同,确定所述待处理字段非敏感字段。
[0020]一种可能的实施方式,所述基于所述位置,查询对应于所述待处理字段的脱敏规则,并基于所述脱敏规则中的脱敏类型,确定是否利用所述脱敏规则中的脱敏算法对所述待处理字段进行脱敏,包括:
[0021]响应于所述脱敏规则为第二脱敏规则,且所述第二脱敏规则中的第二脱敏类型为列字段脱敏,确定利用所述第二脱敏规则中的第二脱敏算法针对所述待处理字段进行脱敏。
[0022]一种可能的实施方式,所述基于所述位置,查询对应于所述待处理字段的脱敏规则,并基于所述脱敏规则中的脱敏类型,确定是否利用所述脱敏规则对所述待处理字段进行脱敏,包括:
[0023]响应于所述脱敏规则依次包括第三脱敏规则和第四脱敏规则,且所述第三脱敏规则的第三脱敏类型为样本集脱敏,所述第四脱敏规则的第四脱敏类型为列字段脱敏,获取所述第三脱敏规则中的第三样本集标记;
[0024]基于所述第三样本集标记,下载所述第三敏感样本集;
[0025]确定所述待处理字段是否与所述第三敏感样本集中任一敏感字段相同;若是,则确定利用所述第三脱敏规则中的第三脱敏算法针对所述待处理字段进行脱敏;若否,则确定利用所述第四脱敏规则中的第四脱敏算法针对所述待处理字段进行脱敏。
[0026]一种可能的实施方式,所述基于UDTF函数,为所述待处理数据表中的列字段添加待填充标记列之前,包括:
[0027]接收脱敏任务;其中,所述脱敏任务包括访问对象的安全等级、待导出数据,所述待导出数据包括库名称、表名称、和/或列字段名称;
[0028]基于所述待导出数据创建待处理数据表,并根据预设脱敏规则的预设安全等级,筛选所述预设安全等级高于所述访问对象的安全等级的预设脱敏规则为第一目标脱敏规则;
[0029]在脱敏类型为列字段脱敏的所述第一目标脱敏规则中,筛选包括所述待导出数据
的所述库名称、表名称、和/或列字段名称的第二目标脱敏规则,和/或,筛选所述脱敏类型为样本集脱敏的第一脱敏规则,并标记为第三脱敏规则;
[0030]将所述第二目标脱敏规则和/或所述第三脱敏规则以预设格式与所述待导出数据拼接为SQL语句,使所述第二目标规则为所述SQL语句中的参数。
[0031]一种可能的实施方式,所述在脱敏类型为列字段脱敏的所述第一目标脱敏规则中,筛选包括所述待导出数据的所述列字段名称的第二目标脱敏规则,和/或,筛选所述脱敏类型为样本集脱敏的第一脱敏规则,并标记为第三脱敏规则之后,包括:
[0032]确定所述第二目标脱敏规则中的脱敏对象与所述第三目标脱敏规则中的脱敏对象;
[0033]响应于所述第二目标脱敏规则中的脱敏对象与所述第三目标脱敏规则中的脱敏对象相同,确定所述第二目标脱敏规则和所述第三目标脱敏规则的优先级;
[0034]响应于所述第二目标脱敏规则的优先级高于所述第三目标脱敏规则的优先级,将所述预设格式的所述第二目标脱敏规则排列于所述预设格式的所述第三目标脱敏规则之前,并与对应于所述脱敏对象的待导出数据拼接为SQL语句。
[0035]一种可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据脱敏的方法,其特征在于,包括:读取待处理字段,并确定所述待处理字段在待处理数据表中的位置;其中,所述待处理字段为待处理数据表中的字段;基于所述位置,查询对应于所述待处理字段的脱敏规则,并基于所述脱敏规则中的脱敏类型,确定是否利用所述脱敏规则对所述待处理字段进行脱敏;其中,所述脱敏类型包括样本集脱敏、和/或列字段脱敏;若是,基于所述脱敏规则对所述待处理字段进行脱敏,并利用脱敏得到的脱敏字段更新所述待处理字段。2.如权利要求1所述的方法,其特征在于,所述读取待处理字段之前,还包括:基于UDTF函数,为所述待处理数据表中的列字段添加待填充标记列;其中,所述待填充标记列中的待填充标记与所述列字段中的所述待处理字段一一对应,所述待填充标记用于标记所述待处理字段中待脱敏字段的脱敏规则;则所述利用脱敏得到的脱敏字段更新所述待处理字段之后,还包括:将所述脱敏规则添加至对应于所述脱敏字段的待填充标记中。3.如权利要求1或2所述的方法,其特征在于,所述基于所述位置,查询对应于所述待处理字段的脱敏规则,并基于所述脱敏规则中的脱敏类型,确定是否利用所述脱敏规则对所述待处理字段进行脱敏,包括:响应于所述脱敏规则为第一脱敏规则,且所述第一脱敏规则中的第一脱敏类型为样本集脱敏,基于所述第一脱敏规则中的第一样本集标记,下载第一敏感样本集;其中,所述第一样本集标记与所述第一敏感样本集一一对应;将所述第一敏感样本集中的敏感字段与所述待处理字段进行比对;响应于所述待处理字段与所述第一敏感样本集中任一所述敏感字段相同,确定利用所述第一脱敏规则中的第一脱敏算法针对所述待处理字段进行脱敏;或者,响应于所述待处理字段与所述第一敏感样本集中任一所述敏感字段均不同,确定所述待处理字段非敏感字段。4.如权利要求1或2所述的方法,其特征在于,所述基于所述位置,查询对应于所述待处理字段的脱敏规则,并基于所述脱敏规则中的脱敏类型,确定是否利用所述脱敏规则中的脱敏算法对所述待处理字段进行脱敏,包括:响应于所述脱敏规则为第二脱敏规则,且所述第二脱敏规则中的第二脱敏类型为列字段脱敏,确定利用所述第二脱敏规则中的第二脱敏算法针对所述待处理字段进行脱敏。5.如权利要求1或2所述的方法,其特征在于,所述基于所述位置,查询对应于所述待处理字段的脱敏规则,并基于所述脱敏规则中的脱敏类型,确定是否利用所述脱敏规则对所述待处理字段进行脱敏,包括:响应于所述脱敏规则依次包括第三脱敏规则和第四脱敏规则,且所述第三脱敏规则的第三脱敏类型为样本集脱敏,所述第四脱敏规则的第四脱敏类型为列字段脱敏,获取所述第三脱敏规则中的第三样本集标记;基于所述第三样本集标记,下载所述第三敏感样本集;确定所述待处理字段是否与所述第三敏感样本集中任一敏感字段相同;若是,则确定利用所述第三脱敏规则中的第三脱敏算法针对所述待处理字段进行脱敏;若否,则确定利
用所述第四脱敏规则中的第四脱敏算法针对所述待处理字段进行脱敏。6.如权利要求2所述的方法,其特征在于,所述基于UDTF函数,为所述待处理数据表中的列字段添加待填充标记列之前,包括:接收脱敏任务;其中,所述脱敏任务包括访问对象的安全等级、待导出数据,所述待导出数据包括库名称、表名称、和/或...

【专利技术属性】
技术研发人员:张仕彬
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1