一种数据脱敏方法和系统技术方案

技术编号:33133701 阅读:17 留言:0更新日期:2022-04-17 00:55
本说明书实施例提供了一种编码器训练方法、数据脱敏方法和系统,方法包括:通过编码器处理样本数据,得到样本编码数据;基于预设位置从样本编码数据中提取部分数据以确定样本数据对应的样本脱敏数据;通过至少一个任务处理模型分别处理其对应的样本脱敏数据,得到各任务处理模型对应的任务预测结果;通过数据重构模型处理样本编码数据,得到重构数据;至少调整编码器的模型参数,以使得各任务预测结果与对应的参考标准的差异减小,以及使得重构数据与样本数据的差异增大。还包括利用训练好的编码器处理原始数据,得到编码数据;基于预设位置从编码数据中提取部分数据;基于所述部分数据确定原始数据对应的脱敏数据。数据确定原始数据对应的脱敏数据。数据确定原始数据对应的脱敏数据。

【技术实现步骤摘要】
一种数据脱敏方法和系统


[0001]本说明书涉及数据处理
,特别涉及编码器训练方法、数据脱敏方法和系统。

技术介绍

[0002]在各种业务应用中,会涉及使用带有敏感信息的敏感数据,如关于人的人脸、语音等生物特征的数据,或者带有证件号码、密码、账号等敏感信息的数据。对于敏感数据,需要对其进行数据脱敏,隐匿其中的敏感信息,再将脱敏后的脱敏数据用于各种业务应用,以实现敏感数据的可靠保护。由于敏感数据保护的重要性,希望能够提升数据脱敏的效果,得到不易被恢复出原始数据的脱敏数据,以更好地实现隐私保护。
[0003]因此,亟需数据脱敏方法和系统,以提升数据脱敏的效果,更好地实现隐私保护。

技术实现思路

[0004]本说明书一个方面提供一种编码器训练方法,包括:通过编码器处理样本数据,得到样本编码数据;基于预设位置从所述样本编码数据中提取部分数据;基于所述部分数据确定所述样本数据对应的样本脱敏数据;通过至少一个任务处理模型分别处理其对应的样本脱敏数据,得到各任务处理模型对应的任务预测结果;通过数据重构模型处理所述样本编码数据,得到重构数据;至少调整所述编码器的模型参数,以使得各任务预测结果与对应的参考标准的差异减小,以及使得重构数据与所述样本数据的差异增大。
[0005]本说明书另一个方面提供一种编码器训练系统,包括:样本数据编码模块,用于通过编码器处理样本数据,得到样本编码数据;样本编码数据提取模块,用于基于预设位置从所述样本编码数据中提取部分数据;样本脱敏数据确定模块,用于基于所述部分数据确定所述样本数据对应的样本脱敏数据;任务预测模块,用于通过至少一个任务处理模型分别处理其对应的样本脱敏数据,得到各任务处理模型对应的任务预测结果;数据重构模块,用于通过数据重构模型处理所述样本编码数据,得到重构数据;参数调整模块,用于数至少调整所述编码器的模型参数,以使得各任务预测结果与对应的参考标准的差异减小,以及使得重构数据与所述样本数据的差异增大。
[0006]本说明书另一个方面提供一种编码器训练装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现编码器训练方法。
[0007]本说明书一个方面提供一种数据脱敏方法,包括:利用编码器处理原始数据,得到编码数据;基于预设位置从所述编码数据中提取部分数据;基于所述部分数据确定所述原始数据对应的脱敏数据。
[0008]本说明书另一个方面提供一种数据脱敏系统,包括:数据编码模块,用于利用编码器处理原始数据,得到编码数据;编码数据提取模块,用于基于预设位置从所述编码数据中提取部分数据;脱敏数据确定模块,用于基于所述部分数据确定所述原始数据对应的脱敏
数据。
[0009]本说明书另一个方面提供一种数据脱敏装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现数据脱敏方法。
附图说明
[0010]本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
[0011]图1是根据本说明书一些实施例所示的编码器训练系统或数据脱敏系统的应用场景示意图;
[0012]图2是根据本说明书一些实施例所示的一种编码器训练系统的框图;
[0013]图3是根据本说明书一些实施例所示的一种数据脱敏系统的框图;
[0014]图4是根据本说明书一些实施例所示的一种编码器训练方法的示例性流程图;
[0015]图5是根据本说明书一些实施例所示的一种编码器的训练架构的示例性示意图;
[0016]图6是根据本说明书一些实施例所示的另一种编码器的训练架构的示例性示意图;
[0017]图7是根据本说明书一些实施例所示的一种数据脱敏方法的示例性流程图。
具体实施方式
[0018]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
[0019]应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
[0020]如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
[0021]本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
[0022]图1是根据本说明书的一些实施例所示的编码器训练系统或数据脱敏系统的应用场景示意图。
[0023]应用场景100可以涉及数据脱敏的各种业务场景,例如业务数据脱敏、数据库运维
脱敏、数据导出的数据脱敏等等。
[0024]在各种业务应用中,会涉及使用带有敏感信息的敏感数据。如关于人的人脸、语音等生物特征的数据,或者带有证件号码、密码、账号等敏感信息的数据。关于敏感数据的更多内容可以参见步骤410及其相关说明。对于敏感数据,需要对其进行变形、修改,以隐藏或去除敏感信息,实现数据脱敏。得到脱敏数据后将其用于各种业务应用,例如将隐藏了人脸特征的人脸图像数据用于人脸识别,又例如将去除了密码的交易信息用于交易风险预测等,可以实现敏感数据的可靠保护。
[0025]不可避免的,提供给业务应用的脱敏数据可能会被用来进行恢复原始数据。例如,其他人或业务方可以另外训练数据重构网络,使得数据重构网络可以基于被提供给业务应用的脱敏数据来重建得到与原始数据相同的重建数据。若原始数据被恢复则可能会导致敏感数据的泄露,无法保障隐私安全。因此,希望能够提升数据脱敏的效果,得到不易被恢复的脱敏数据,以更好地实现隐私保护。
[0026]有鉴于此,本说明书一些实施例提出编码器训练方法和系统,以及数据脱敏方法和系统。其中,编码器训练方法包括通过编码器处理样本数据得到样本编码数据,基于预设位置从样本编码数据中提取部分数据以确定样本数据对应的样本脱敏数据,通过至少一个任务处理模型分别处理对应的样本脱敏数据得到对应的任务预测结果,以及通过数据重构模型处理样本编码数据得到重构数据,基于损失函数至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种编码器训练方法,包括:通过编码器处理样本数据,得到样本编码数据;基于预设位置从所述样本编码数据中提取部分数据;基于所述部分数据确定所述样本数据对应的样本脱敏数据;通过至少一个任务处理模型分别处理其对应的样本脱敏数据,得到各任务处理模型对应的任务预测结果;通过数据重构模型处理所述样本编码数据,得到重构数据;至少调整所述编码器的模型参数,以使得各任务预测结果与对应的参考标准的差异减小,以及使得重构数据与所述样本数据的差异增大。2.如权利要求1所述的方法,至少调整所述编码器的模型参数,还使得所述部分数据与所述编码数据中的剩余部分的相关性减小。3.如权利要求2所述的方法,至少调整所述编码器的模型参数,还使得所述部分数据的模值不小于预设值,以及使得所述编码数据中剩余部分的模值不小于预设值。4.如权利要求1所述的方法,所述任务处理模型的数量为两个或多个;所述部分数据包括两个或多个任务专有数据以及任务共有数据;所述基于所述部分数据确定所述样本数据对应的样本脱敏数据,包括:将两个或多个任务专有数据分别与所述任务共有数据组合,进而获得两个或多个样本脱敏数据,所述两个或多个样本脱敏数据与两个或多个任务处理模型一一对应。5.如权利要求4所述的方法,所述任务专有数据、任务共有数据以及所述编码数据中的剩余部分等长。6.如权利要求4所述的方法,至少调整所述编码器的模型参数,还使得所述两个或多个任务专有数据与所述编码数据中的剩余部分中的任意两个的相关性减小。7.如权利要求6所述的方法,至少调整所述编码器的模型参数,还使得所述两个或多个任务专有数据的模值不小于预设值,以及使得所述编码数据中的剩余部分的模值不小于预设值。8.如权利要求1所述的方法,所述至少调整所述编码器的模型参数,以使得各任务预测结果与对应的参考标准的差异减小,以及使得重构数据与所述样本数据的差异增大,还包括:调整所述至少一个任务处理模型的模型参数以及所述数据重构模型的模型参数。9.如权利要求8所述的方法,所述至少调整所述编码器的模型参数,以使得各任务预测结果与对应的参考标准的差异减小,以及使得重构数据与所述样本数据的差异增大,包括:调整所述至少一个任务处理模型的模型参数,以使得各任务预测结果与对应的参考标准的差异减小;调整所述数据重构模型的模型参数,以使得重构数据与所述样本数据的差异减小;利用调整后的至少一个任务处理模型分别处理其对应的所述样本脱敏数据,得到各任务处理模型对应的二次任务预测结果;利用调整后的数据重构模型处理所述样本编码数据,得到二次重构数据;调整所述编码器的模型参数,以使得各二次任务预测结果与对应的所述参考标准的差异减小,以及使得二次重构数据与所述样本数据的差异增大。
10.如权利要求9所述的方法,所述数据重构模型包括生成器与判别器;所述生成器用于处理所述样本编码数据,得到重构数据;所述调整所述数据重构模型的模型参数,以使得重构数据与所述样本数据的差异减小,包括:通过判别器处理所述重构数据,得到对应的分值;所述分值反映判别器判别被处理的数据为真的概率;调整所述生成器的模型参数,以使所述分值增大。11.如权利要求10所述的方法,所述调整所述数据重构模型的模型参数,以使得重构数据与所述样本数据的差异减小,还包括:通过判别器处理所述样本数据,得到对应的分值;调整所述判别器的模型参...

【专利技术属性】
技术研发人员:王莹桂王力张本宇
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1