【技术实现步骤摘要】
一种基于NLP语言模型的数据脱敏方法及系统
[0001]本专利技术涉及数据脱敏
,特别涉及一种基于NLP语言模型的数据脱敏方法及系统。
技术介绍
[0002]数据脱敏能够提高对敏感数据的保护程度,近年来,随着各行业信息化管理制度的逐步完善、数据使用场景愈加复杂、脱敏后数据仿真度要求逐渐提升,为保证脱敏果准确而高效,专业化的数据脱敏产品逐渐成为了用户的普遍选择,而现有的数据脱敏方法,往往对不同的数据按照统一的脱敏方式进行脱敏,并未考虑根据访问数据的用户的性质和数据本身的性质按照不同的脱敏方式进行脱敏,使得数据脱敏的灵活性较差,不能很好地满足不同的脱敏需求。
[0003]因此,本专利技术提供了一种基于NLP语言模型的数据脱敏方法及系统。
技术实现思路
[0004]本专利技术一种基于NLP语言模型的数据脱敏方法及系统,利用NLP语言模型对初始数据进行训练得到待脱敏数据,结合正则表达式来提取其中的敏感子数据,最后根据敏感子数据的敏感属性对敏感子数据进行脱敏,满足了不同类型数据的脱敏工作。
[0005]本专利技术提供了一种基于NLP语言模型的数据脱敏方法,包括:
[0006]步骤1:获取初始数据,将初始数据输入到NLP语言模型中进行训练得到待脱敏数据;
[0007]步骤2:利用正则表达式获取待脱敏数据中的敏感子数据;
[0008]步骤3:解析敏感子数据,得到敏感子数据对应的敏感属性;
[0009]步骤4:基于敏感属性建立对应的脱敏原则,利用脱敏原则对对应的敏 ...
【技术保护点】
【技术特征摘要】
1.一种基于NLP语言模型的数据脱敏方法,其特征在于,包括:步骤1:获取初始数据,将初始数据输入到NLP语言模型中进行训练得到待脱敏数据;步骤2:利用正则表达式获取待脱敏数据中的敏感子数据;步骤3:解析敏感子数据,得到敏感子数据对应的敏感属性;步骤4:基于敏感属性建立对应的脱敏原则,利用脱敏原则对对应的敏感子数据进行脱敏,利用完成脱敏的敏感子数据替换对应的敏感子数据,得到脱敏数据。2.如权利要求1所述的一种基于NLP语言模型的数据脱敏方法,其特征在于,所述步骤1,包括:步骤11:获取并解析初始数据,得到初始数据的数据类型;步骤12:根据数据类型选择对应的语言转换因子;步骤13:将语言转换因子和初始数据输入到NLP语言模型中进行训练,生成待脱敏数据。3.如权利要求1所述的一种基于NLP语言模型的数据脱敏方法,其特征在于,所述步骤2,包括:步骤21:将待脱敏数据转换为待脱敏字符串,为待脱敏字符串中的每一字符串匹配通配符,利用通配符建立表达式合集;步骤22:根据表达式合集结合预设正则表达式样本,建立敏感正则表达式;步骤23:解析敏感正则表达式,得到待脱敏字符串中不同字符之间的逻辑关系,根据不同字符之间的逻辑关系,建立脱敏逻辑树;步骤24:获取脱敏逻辑树中每一脱敏分支对应的逻辑特征,提取目标逻辑特征对应的目标字符串,获取目标字符串对应的敏感子数据。4.如权利要求1所述的一种基于NLP语言模型的数据脱敏方法,其特征在于,所述步骤3,包括:步骤31:将敏感子数据与预设数据集中的数据样本进行匹配,得到每一敏感子数据对应的数据类型;步骤32:根据数据类型建立敏感子数据的类型权重;步骤33:获取敏感子数据对应的数据链长,根据数据链长建立数值权重;步骤34:根据类型权重和数值权重生成敏感子数据的敏感属性。5.如权利要求2所述的一种基于NLP语言模型的数据脱敏方法,其特征在于,所述步骤13,包括:步骤131:将语言转换因子和初始数据输入到NLP语言模型中,将初始数据进行垂直投影得到投影结果,解析投影结果得到标准语言数据中每一非空白单位子数据对应的数据位置,建立初始数据的数据分布信息;步骤132:根据数据分布信息得到初始数据中的若干个待训练点;步骤133:利用语言转换因子分别对每一待训练点进行转换训练,得到对应的训练数据;步骤134:分别将每一训练数据为标准语言格式下的标准语言数据,将标准语言数据进行数据重构,生成待脱敏数据。6.如权利要求3所述的一种基于NLP语言模型的数据脱敏方法,其特征在于,所述步骤
23,包括:步骤231:解析敏感正则表达式得到若干个字符词,以及不同字符词组成的字符句;步骤232:分别获取...
【专利技术属性】
技术研发人员:闫劲阳,江何,周训游,邹佳彬,
申请(专利权)人:北京泰策科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。