数据脱敏方法技术

技术编号:39736048 阅读:23 留言:0更新日期:2023-12-17 23:38
本申请提出了一种数据脱敏方法

【技术实现步骤摘要】
数据脱敏方法、装置、电子设备及计算机可读存储介质


[0001]本申请涉及大数据
,尤其涉及一种数据脱敏方法

装置

电子设备及计算机可读存储介质


技术介绍

[0002]目前的数据脱敏方法,例如,掩盖脱敏

替换脱敏等

其中,掩盖脱敏,是采用指定符号,例如星号等替换源数据中的敏感字段

替换脱敏中的替换规则例如,关键字替换等,是利用伪装字段完全替换源数据中的敏感字段

[0003]上述数据脱敏方法中,伪装字段难以体现敏感字段的数据特征等;导致脱敏后数据,难以适用于基于数据特征进行的开发以及使用场景,数据脱敏效率差


技术实现思路

[0004]本申请的目的旨在至少在一定程度上解决上述技术问题之一

[0005]为此,本申请提出了一种数据脱敏方法

装置

电子设备及计算机可读存储介质,能够确定源数据中敏感字段的内容类型,根据该内容类型下的伪装字段,对源数据中的敏感字段进行替换处理得到脱敏后数据,以确保伪装字段能够体现敏感字段的数据特征和
/
或业务含义,使得脱敏后数据能够适用于基于数据特征和
/
或业务含义进行的开发以及使用场景,提高数据脱敏效率

[0006]本申请第一方面实施例提出了一种数据脱敏方法,包括:获取源数据中的敏感字段,以及所述敏感字段的内容类型;获取所述内容类型下的伪装字段;所述伪装字段与所述敏感字段具备匹配的数据特征和
/
或业务含义;根据所述伪装字段,对所述源数据中的所述敏感字段进行替换处理,得到所述源数据对应的脱敏后数据

[0007]可选地,所述获取所述内容类型下的伪装字段,包括:在所述敏感字段为字符字段的情况下,获取所述内容类型对应的正则表达式;根据所述正则表达式,生成候选字符字段;将所述候选字符字段,作为所述内容类型下的伪装字段

[0008]可选地,所述获取所述内容类型对应的正则表达式,包括:获取表达式库;所述表达式库中包括,各个内容类型对应的正则表达式;根据所述内容类型查询所述表达式库,获取所述表达式库中所述内容类型对应的正则表达式

[0009]可选地,所述表达式库中所述内容类型对应的正则表达式的确定方式,包括:获取所述内容类型下的多个样本字符字段;根据所述多个样本字符字段进行正则表达式提取处理,得到所述内容类型对应的正则表达式

[0010]可选地,所述获取所述内容类型对应的正则表达式,包括:获取所述源数据中所述内容类型下的多个源字符字段;根据所述多个源字符字段进行正则表达式提取处理,得到所述内容类型对应的正则表达式

[0011]可选地,所述内容类型对应的正则表达式中,指示所述内容类型下的字符字段中各个位置上的字符的可选范围

[0012]可选地,所述获取所述内容类型下的伪装字段,包括:在所述敏感字段为中文实体字段的情况下,获取所述内容类型下的多个候选中文实体字段;从所述多个候选中文实体字段中选择一个候选中文实体字段,作为所述内容类型下的伪装字段

[0013]可选地,所述获取所述内容类型下的多个候选中文实体字段,包括:获取实体库;所述实体库中包括,各个内容类型下的候选中文实体字段;根据所述内容类型查询所述实体库,获取所述实体库中所述内容类型下的多个候选中文实体字段

[0014]可选地,所述获取所述内容类型下的伪装字段,包括:在所述敏感字段为中文实体字段的情况下,将所述中文实体字段输入预设的生成式语言模型,获取所述生成式语言模型输出的与所述中文实体字段具有相同内容类型的预测中文实体字段;将所述预测中文实体字段,作为所述内容类型下的伪装字段

[0015]可选地,所述获取源数据中的敏感字段,以及所述敏感字段的内容类型,包括:确定敏感内容类型;获取表达式库中各个敏感内容类型对应的正则表达式;基于各个敏感内容类型对应的正则表达式,对所述源数据进行敏感字段提取处理,得到敏感字段;将提取所述敏感字段时的正则表达式对应的敏感内容类型,确定为所述敏感字段的内容类型

[0016]可选地,所述生成式语言模型,根据至少一个内容类型,以及所述内容类型下的多个样本中文实体字段,训练得到

[0017]可选地,所述字符字段中的字符包括以下至少一种:数字字符

字母字符以及特殊符号

[0018]本申请实施例的数据脱敏方法,通过获取源数据中的敏感字段,以及敏感字段的内容类型;获取内容类型下的伪装字段;伪装字段与敏感字段具备匹配的数据特征和
/
或业务含义;根据伪装字段,对源数据中的敏感字段进行替换处理,得到源数据对应的脱敏后数据,使得伪装字段与敏感字段的内容类型一致,伪装字段能够体现敏感字段的数据特征和
/
或业务含义,确保脱敏后数据能够适用于基于数据特征和
/
或业务含义进行的开发以及使用场景,提高数据脱敏效率

[0019]本申请第二方面实施例提出了一种数据脱敏装置,包括:第一获取模块,用于获取源数据中的敏感字段,以及所述敏感字段的内容类型;第二获取模块,用于获取所述内容类型下的伪装字段;伪装字段与所述敏感字段具备匹配的数据特征和
/
或业务含义;处理模块,用于根据所述伪装字段,对所述源数据中的所述敏感字段进行替换处理,得到所述源数据对应的脱敏后数据

[0020]可选地,所述第二获取模块具体用于,在所述敏感字段为字符字段的情况下,获取所述内容类型对应的正则表达式;根据所述正则表达式,生成候选字符字段;将所述候选字符字段,作为所述内容类型下的伪装字段

[0021]可选地,所述第二获取模块具体还用于,获取表达式库;所述表达式库中包括,各个内容类型对应的正则表达式;根据所述内容类型查询所述表达式库,获取所述表达式库中所述内容类型对应的正则表达式

[0022]可选地,所述表达式库中所述内容类型对应的正则表达式的确定方式,包括:获取所述内容类型下的多个样本字符字段;根据所述多个样本字符字段进行正则表达式提取处理,得到所述内容类型对应的正则表达式

[0023]可选地,所述第二获取模块具体还用于,获取所述源数据中所述内容类型下的多
个源字符字段;根据所述多个源字符字段进行正则表达式提取处理,得到所述内容类型对应的正则表达式

[0024]可选地,所述内容类型对应的正则表达式中,指示所述内容类型下的字符字段中各个位置上的字符的可选范围

[0025]可选地,所述第二获取模块具体用于,在所述敏感字段为中文实体字段的情况下,获取所述内容类型下的多个候选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据脱敏方法,其特征在于,所述方法包括:获取源数据中的敏感字段,以及所述敏感字段的内容类型;获取所述内容类型下的伪装字段;所述伪装字段与所述敏感字段具备匹配的数据特征和
/
或业务含义;根据所述伪装字段,对所述源数据中的所述敏感字段进行替换处理,得到所述源数据对应的脱敏后数据
。2.
根据权利要求1所述的方法,其特征在于,所述获取所述内容类型下的伪装字段,包括:在所述敏感字段为字符字段的情况下,获取所述内容类型对应的正则表达式;根据所述正则表达式,生成候选字符字段;将所述候选字符字段,作为所述内容类型下的伪装字段
。3.
根据权利要求2所述的方法,其特征在于,所述获取所述内容类型对应的正则表达式,包括:获取表达式库;所述表达式库中包括,各个内容类型对应的正则表达式;根据所述内容类型查询所述表达式库,获取所述表达式库中所述内容类型对应的正则表达式
。4.
根据权利要求2所述的方法,其特征在于,所述获取所述内容类型对应的正则表达式,包括:获取所述源数据中所述内容类型下的多个源字符字段;根据所述多个源字符字段进行正则表达式提取处理,得到所述内容类型对应的正则表达式
。5.
根据权利要求1或2所述的方法,其特征在于,所述获取所述内容类型下的伪装字段,包括:在所述敏感字段为中文实体字段的情况下,获取所述内容类型下的多个候选中文实体字段;从所述多个候选中文实体字段中选择一个候选中文实体字段,作为所述内容类型下的伪装字段
。6.
...

【专利技术属性】
技术研发人员:王倩严龙鹏
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1