一种基于NLP语言模型的数据脱敏方法及系统技术方案

技术编号:39301918 阅读:12 留言:0更新日期:2023-11-12 15:52
本发明专利技术提供了一种基于NLP语言模型的数据脱敏方法及系统包括:获取初始数据,将初始数据输入到NLP语言模型中进行训练得到待脱敏数据,利用正则表达式获取待脱敏数据中的敏感子数据,解析敏感子数据,得到敏感子数据对应的敏感属性,基于敏感属性建立对应的脱敏原则,利用脱敏原则对对应的敏感子数据进行脱敏,利用完成脱敏的敏感子数据替换对应的敏感子数据,得到脱敏数据,利用NLP语言模型对初始数据进行训练得到待脱敏数据,结合正则表达式来提取其中的敏感子数据,最后根据敏感子数据的敏感属性对敏感子数据进行脱敏,满足了不同类型数据的脱敏工作。数据的脱敏工作。数据的脱敏工作。

【技术实现步骤摘要】
一种基于NLP语言模型的数据脱敏方法及系统


[0001]本专利技术涉及数据脱敏
,特别涉及一种基于NLP语言模型的数据脱敏方法及系统。

技术介绍

[0002]数据脱敏能够提高对敏感数据的保护程度,近年来,随着各行业信息化管理制度的逐步完善、数据使用场景愈加复杂、脱敏后数据仿真度要求逐渐提升,为保证脱敏果准确而高效,专业化的数据脱敏产品逐渐成为了用户的普遍选择,而现有的数据脱敏方法,往往对不同的数据按照统一的脱敏方式进行脱敏,并未考虑根据访问数据的用户的性质和数据本身的性质按照不同的脱敏方式进行脱敏,使得数据脱敏的灵活性较差,不能很好地满足不同的脱敏需求。
[0003]因此,本专利技术提供了一种基于NLP语言模型的数据脱敏方法及系统。

技术实现思路

[0004]本专利技术一种基于NLP语言模型的数据脱敏方法及系统,利用NLP语言模型对初始数据进行训练得到待脱敏数据,结合正则表达式来提取其中的敏感子数据,最后根据敏感子数据的敏感属性对敏感子数据进行脱敏,满足了不同类型数据的脱敏工作。
[0005]本专利技术提供了一种基于NLP语言模型的数据脱敏方法,包括:
[0006]步骤1:获取初始数据,将初始数据输入到NLP语言模型中进行训练得到待脱敏数据;
[0007]步骤2:利用正则表达式获取待脱敏数据中的敏感子数据;
[0008]步骤3:解析敏感子数据,得到敏感子数据对应的敏感属性;
[0009]步骤4:基于敏感属性建立对应的脱敏原则,利用脱敏原则对对应的敏感子数据进行脱敏,利用完成脱敏的敏感子数据替换对应的敏感子数据,得到脱敏数据。
[0010]在一种可实施的方式中,
[0011]所述步骤1,包括:
[0012]步骤11:获取并解析初始数据,得到初始数据的数据类型;
[0013]步骤12:根据数据类型选择对应的语言转换因子;
[0014]步骤13:将语言转换因子和初始数据输入到NLP语言模型中进行训练,生成待脱敏数据。
[0015]在一种可实施的方式中,
[0016]所述步骤2,包括:
[0017]步骤21:将待脱敏数据转换为待脱敏字符串,为待脱敏字符串中的每一字符串匹配通配符,利用通配符建立表达式合集;
[0018]步骤22:根据表达式合集结合预设正则表达式样本,建立敏感正则表达式;
[0019]步骤23:解析敏感正则表达式,得到待脱敏字符串中不同字符之间的逻辑关系,根
据不同字符之间的逻辑关系,建立脱敏逻辑树;
[0020]步骤24:获取脱敏逻辑树中每一脱敏分支对应的逻辑特征,提取目标逻辑特征对应的目标字符串,获取目标字符串对应的敏感子数据。
[0021]在一种可实施的方式中,
[0022]所述步骤3,包括:
[0023]步骤31:将敏感子数据与预设数据集中的数据样本进行匹配,得到每一敏感子数据对应的数据类型;
[0024]步骤32:根据数据类型建立敏感子数据的类型权重;
[0025]步骤33:获取敏感子数据对应的数据链长,根据数据链长建立数值权重;
[0026]步骤34:根据类型权重和数值权重生成敏感子数据的敏感属性。
[0027]在一种可实施的方式中,
[0028]所述步骤13,包括:
[0029]步骤131:将语言转换因子和初始数据输入到NLP语言模型中,将初始数据进行垂直投影得到投影结果,解析投影结果得到标准语言数据中每一非空白单位子数据对应的数据位置,建立初始数据的数据分布信息;
[0030]步骤132:根据数据分布信息得到初始数据中的若干个待训练点;
[0031]步骤133:利用语言转换因子分别对每一待训练点进行转换训练,得到对应的训练数据;
[0032]步骤134:分别将每一训练数据为标准语言格式下的标准语言数据,将标准语言数据进行数据重构,生成待脱敏数据。
[0033]在一种可实施的方式中,
[0034]所述步骤23,包括:
[0035]步骤231:解析敏感正则表达式得到若干个字符词,以及不同字符词组成的字符句;
[0036]步骤232:分别获取每一字符句对应的句语义,根据句语义得到不同字符句之间的第一逻辑关系,根据第一逻辑关系建立初逻辑树;
[0037]步骤233:分别解析每一字符句,得到每一字符句中不同字符词之间的第二逻辑关系,根据第二逻辑关系建立对应的逻辑分支;
[0038]步骤234:将逻辑分支输入到初逻辑树对应的树支上,得到脱敏逻辑树。
[0039]在一种可实施的方式中,
[0040]所述步骤24,包括:
[0041]步骤241:获取脱敏逻辑树上的若干个树分支,将每一树分支记作一个脱敏分支;
[0042]步骤242:分别获取每一脱敏分支对应的句语义,根据句语义建立逻辑特征;
[0043]步骤243:获取目标逻辑特征对应的目标脱敏分支中包含的若干个目标字符句,对目标字符句进行分词处理,得到若干个目标词;
[0044]步骤244:利用预设敏感样本分别与每一目标词进行匹配,提取匹配度高于预设匹配度的敏感目标词,获取敏感目标词在待脱敏字符串中的第一对应关系;
[0045]步骤245:获取待脱敏数据与待脱敏字符串之间的第二对应关系,结合第一对应关系,得到每一目标字符串对应的敏感子数据。
[0046]在一种可实施的方式中,
[0047]所述步骤4,包括:
[0048]步骤41:根据敏感子数据对应的敏感属性,得到敏感子数据的敏感等级以及敏感类型;
[0049]步骤42:根据敏感等级建立脱敏参数,根据敏感类型查找对应的脱敏方式,利用敏感参数修正对应的脱敏方式,得到脱敏原则;
[0050]步骤43:利用脱敏原则对敏感子数据进行脱敏,得到脱敏子数据;
[0051]步骤44:利用脱敏子数据替换对应的敏感子数据,得到脱敏数据。
[0052]本专利技术提供了一种基于NLP语言模型的数据脱敏系统,包括:
[0053]采集模块,用于获取初始数据,将初始数据输入到NLP语言模型中进行训练得到待脱敏数据;
[0054]处理模块,用于利用正则表达式获取待脱敏数据中的敏感子数据;
[0055]解析模块,用于解析敏感子数据,得到敏感子数据对应的敏感属性;
[0056]执行模块,用于基于敏感属性建立对应的脱敏原则,利用脱敏原则对对应的敏感子数据进行脱敏,利用完成脱敏的敏感子数据替换对应的敏感子数据,得到脱敏数据。
[0057]在一种可实施的方式中,
[0058]所述处理模块,包括:
[0059]转换单元,用于将待脱敏数据转换为待脱敏字符串,为待脱敏字符串中的每一字符串匹配通配符,利用通配符建立表达式合集;
[0060]构建单元,用于根据表达式合集结合预设正则表达式样本,建立敏感正则表达式;
[0061]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于NLP语言模型的数据脱敏方法,其特征在于,包括:步骤1:获取初始数据,将初始数据输入到NLP语言模型中进行训练得到待脱敏数据;步骤2:利用正则表达式获取待脱敏数据中的敏感子数据;步骤3:解析敏感子数据,得到敏感子数据对应的敏感属性;步骤4:基于敏感属性建立对应的脱敏原则,利用脱敏原则对对应的敏感子数据进行脱敏,利用完成脱敏的敏感子数据替换对应的敏感子数据,得到脱敏数据。2.如权利要求1所述的一种基于NLP语言模型的数据脱敏方法,其特征在于,所述步骤1,包括:步骤11:获取并解析初始数据,得到初始数据的数据类型;步骤12:根据数据类型选择对应的语言转换因子;步骤13:将语言转换因子和初始数据输入到NLP语言模型中进行训练,生成待脱敏数据。3.如权利要求1所述的一种基于NLP语言模型的数据脱敏方法,其特征在于,所述步骤2,包括:步骤21:将待脱敏数据转换为待脱敏字符串,为待脱敏字符串中的每一字符串匹配通配符,利用通配符建立表达式合集;步骤22:根据表达式合集结合预设正则表达式样本,建立敏感正则表达式;步骤23:解析敏感正则表达式,得到待脱敏字符串中不同字符之间的逻辑关系,根据不同字符之间的逻辑关系,建立脱敏逻辑树;步骤24:获取脱敏逻辑树中每一脱敏分支对应的逻辑特征,提取目标逻辑特征对应的目标字符串,获取目标字符串对应的敏感子数据。4.如权利要求1所述的一种基于NLP语言模型的数据脱敏方法,其特征在于,所述步骤3,包括:步骤31:将敏感子数据与预设数据集中的数据样本进行匹配,得到每一敏感子数据对应的数据类型;步骤32:根据数据类型建立敏感子数据的类型权重;步骤33:获取敏感子数据对应的数据链长,根据数据链长建立数值权重;步骤34:根据类型权重和数值权重生成敏感子数据的敏感属性。5.如权利要求2所述的一种基于NLP语言模型的数据脱敏方法,其特征在于,所述步骤13,包括:步骤131:将语言转换因子和初始数据输入到NLP语言模型中,将初始数据进行垂直投影得到投影结果,解析投影结果得到标准语言数据中每一非空白单位子数据对应的数据位置,建立初始数据的数据分布信息;步骤132:根据数据分布信息得到初始数据中的若干个待训练点;步骤133:利用语言转换因子分别对每一待训练点进行转换训练,得到对应的训练数据;步骤134:分别将每一训练数据为标准语言格式下的标准语言数据,将标准语言数据进行数据重构,生成待脱敏数据。6.如权利要求3所述的一种基于NLP语言模型的数据脱敏方法,其特征在于,所述步骤
23,包括:步骤231:解析敏感正则表达式得到若干个字符词,以及不同字符词组成的字符句;步骤232:分别获取...

【专利技术属性】
技术研发人员:闫劲阳江何周训游邹佳彬
申请(专利权)人:北京泰策科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1