数据脱敏方法、数据脱敏装置、设备及存储介质制造方法及图纸

技术编号:31756542 阅读:16 留言:0更新日期:2022-01-05 16:39
本申请涉及人工智能领域,尤其涉及数据脱敏方法、数据脱敏装置、设备及存储介质,所述方法包括:获取用户数据,并基于预训练好的关键信息识别模型,对所述用户数据进行信息识别,得到关键信息;对所述关键信息进行预处理,得到所述关键信息对应的离散变量,所述预处理包括数据离散化处理或数据归一化处理;基于条件损失函数,对所述离散变量进行条件随机采样处理,得到条件嵌入向量和隐向量,并将所述条件嵌入向量与所述隐向量进行拼接,得到拼接向量;将所述拼接向量输入到预训练好的生成器进行脱敏处理,得到脱敏数据。由此能够使脱敏数据的无法被轻易逆向破解,从而保证了隐私数据不被泄露,提高了脱敏数据的安全性。提高了脱敏数据的安全性。提高了脱敏数据的安全性。

【技术实现步骤摘要】
数据脱敏方法、数据脱敏装置、设备及存储介质


[0001]本申请涉及人工智能领域,尤其涉及数据脱敏方法、数据脱敏装置、计算机设备及存储介质。

技术介绍

[0002]大数据时代下,针对数据进行的攻击频率日益增多,攻击方式也日趋丰富。数据脱敏技术是解决数据安全问题和风险的一种行之有效的方法。数据脱敏是指对关键信息或个人信息按照预设的规则或者变换进行数据变形,从而使得个人身份无法识别或者隐去关键信息。目前常见的结构化数据脱敏方式有基于匿名化技术或者扰乱技术的脱敏方式。
[0003]而基于匿名化技术或扰乱技术的结构化数据脱敏方法中存在脱敏后数据与原数据是一对一的映射关系的问题,导致脱敏后的数据容易被逆向破解,从而被轻易还原出原数据,进而导致原数据中隐私信息的泄露,数据安全性较差。

技术实现思路

[0004]本申请提供了一种数据脱敏方法、数据脱敏装置、计算机设备及存储介质,旨在解决现有的脱敏方式存在容易被逆向破解导致隐私信息容易被泄露的问题。
[0005]为实现上述目的,本申请提供一种数据脱敏方法,所述方法包括:
[0006]获取用户数据,并基于预训练好的关键信息识别模型,对所述用户数据进行信息识别,得到关键信息;
[0007]对所述关键信息进行预处理,得到所述关键信息对应的离散变量,所述预处理包括数据离散化处理或数据归一化处理;
[0008]基于条件损失函数,对所述离散变量进行条件随机采样处理,得到条件嵌入向量和隐向量,并将所述条件嵌入向量与所述隐向量进行拼接,得到拼接向量;
[0009]将所述拼接向量输入到预训练好的生成器进行脱敏处理,得到脱敏数据。
[0010]为实现上述目的,本申请还提供一种数据脱敏装置,所述数据脱敏装置包括:
[0011]关键信息提取模块,用于获取用户数据,并基于预训练好的关键信息识别模型,对所述用户数据进行信息识别,得到关键信息;
[0012]信息处理模块,用于对所述关键信息进行预处理,得到所述关键信息对应的离散变量,所述预处理包括数据离散化处理或数据归一化处理;
[0013]向量拼接模块,用于基于条件损失函数,对所述离散变量进行条件随机采样处理,得到条件嵌入向量和隐向量,并将所述条件嵌入向量与所述隐向量进行拼接,得到拼接向量;
[0014]数据脱敏模块,用于将所述拼接向量输入到预训练好的生成器进行脱敏处理,得到脱敏数据。
[0015]此外,为实现上述目的,本申请还提供一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述的计算机程序
并在执行所述的计算机程序时实现本申请实施例提供的任一项所述的数据脱敏方法。
[0016]此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的数据脱敏方法。
[0017]本申请实施例公开的数据脱敏方法、数据脱敏装置、设备及存储介质,通过提取用户数据的关键信息以及关键信息的离散变量,从而生成拼接向量,并利用预训练好的生成器对拼接向量进行脱敏处理,得到脱敏数据,由此能够使脱敏数据的无法轻易被逆向破解,从而保证了隐私数据不被泄露,提高了脱敏数据的安全性。
附图说明
[0018]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本申请实施例提供的一种数据脱敏方法的场景示意图;
[0020]图2是本申请实施例提供的一种数据脱敏方法的流程示意图;
[0021]图3是本申请一实施例提供的一种数据脱敏装置的示意性框图;
[0022]图4是本申请一实施例提供的一种计算机设备的示意性框图。
具体实施方式
[0023]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
[0025]在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0026]数据脱敏技术是一种可以通过对数据进行处理,从而达到降低和去除数据敏感程度的数据处理技术。采用数据脱敏技术,可以降低数据泄露的风险和危害,有效地保护用户数据的隐私。在互联网或医疗领域,用户可以通过个人数字空间存储、查看和分享个人医疗健康数据,但是个人的医疗数据在网上看病、网上购买药品、门诊预约等流程中会面临用户医疗敏感信息泄露的风险,而在医疗行业用户的数据具有极高的真实性和敏感性特点,一旦用户的个人敏感信息泄露可能会对用户本人造成潜在的生命威胁。借助数据脱敏,个人数字空间中的信息可以被用于业务相关的分析和处理,同时避免用户数据的泄露。
[0027]目前常见的结构化数据脱敏方式有基于匿名化技术或者扰乱技术的脱敏方式。常见的匿名化技术有k

匿名、l

多样性和t

closeness等,它们是通过对单条记录的准标识符进行泛化后使得该数据在整个数据集中无法进行区分,从而达到脱敏的效果。基于扰乱技
术则是往记录中加入噪声,比如在连续值中加入加性或者乘性噪声,从而达到脱敏的效果。
[0028]而基于匿名化技术或扰乱技术的结构化数据脱敏方法中存在脱敏后数据与原数据是一对一的映射关系的问题,导致脱敏后的数据存在被逆向的风险,而且经过脱敏的数据往往与原数据差别较大而失去了研究的价值。
[0029]为解决上述问题,本申请提供了一种数据脱敏方法,可以应用在服务器中,具体应用金融、医疗等多个领域,通过不断对生成器参数进行迭代更新,得到预训练好的生成器,提取用户数据的敏感信息,并利用预训练好的生成器对敏感信息进行脱敏处理,得到脱敏数据,由此能够使脱敏数据的无法被轻易逆向破解,从而保证了隐私数据不被泄露,提高了脱敏数据的安全性。
[0030]其中,服务器例如可以为单独的服务器或服务器集群。但为了便于理解,以下实施例将以应用于服务器的数据脱敏方法进行详细介绍。
[0031]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据脱敏方法,其特征在于,所述方法包括:获取用户数据,并基于预训练好的关键信息识别模型,对所述用户数据进行信息识别,得到关键信息;对所述关键信息进行预处理,得到所述关键信息对应的离散变量,所述预处理包括数据离散化处理或数据归一化处理;基于条件损失函数,对所述离散变量进行条件随机采样处理,得到条件嵌入向量和隐向量,并将所述条件嵌入向量与所述隐向量进行拼接,得到拼接向量;将所述拼接向量输入到预训练好的生成器进行脱敏处理,得到脱敏数据。2.根据权利要求1所述的方法,其特征在于,所述基于预训练好的关键信息识别模型,对所述用户数据进行信息识别,得到关键信息,包括:对所述用户数据进行分词处理,得到多个分词;对每个所述分词进行特征提取,得到每个所述分词的嵌入特征;根据每个所述分词的嵌入特征进行词义预测,得到每个所述分词对应的词义;根据每个所述分词对应的词义对所述多个分词进行筛选,得到关键信息。3.根据权利要求1所述的方法,其特征在于,所述对所述关键信息进行预处理,得到所述关键信息对应的离散变量,包括:对所述关键信息进行最大最小归一化处理,得到所述关键信息对应的离散变量;或,通过高斯混合模型对所述关键信息进行归一化处理,得到所述关键信息对应的离散变量;或,对所述关键信息进行K

bins离散化处理,得到所述关键信息对应的离散变量;或,对所述关键信息进行回归树离散化处理,得到所述关键信息对应的离散变量。4.根据权利要求1所述的方法,其特征在于,所述将所述条件嵌入向量与所述隐向量进行拼接,得到拼接向量,包括:对所述条件嵌入向量进行转化处理,得到独热编码;将所述独热编码与所述隐向量进行拼接,得到拼接向量。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取训练数据对应的拼接向量,并将所述拼接向量输入到第一生成器进行脱敏处理,得到脱敏后的数据;基于所述脱敏后的数据和训练数据对预设的判别器进行训练,...

【专利技术属性】
技术研发人员:郑旭如赵盟盟王磊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1