【技术实现步骤摘要】
一种数据脱敏方法和系统
[0001]本说明书涉及数据处理
,特别涉及编码器训练方法、数据脱敏方法和系统。
技术介绍
[0002]在各种业务应用中,会涉及使用带有敏感信息的敏感数据,如关于人的人脸、语音等生物特征的数据,或者带有证件号码、密码、账号等敏感信息的数据。对于敏感数据,需要对其进行数据脱敏,隐匿其中的敏感信息,再将脱敏后的脱敏数据用于各种业务应用,以实现敏感数据的可靠保护。由于敏感数据保护的重要性,希望能够提升数据脱敏的效果,得到不易被恢复出原始数据的脱敏数据,以更好地实现隐私保护。
[0003]因此,亟需数据脱敏方法和系统,以提升数据脱敏的效果,更好地实现隐私保护。
技术实现思路
[0004]本说明书一个方面提供一种编码器训练方法,包括:通过编码器处理样本数据,得到样本编码数据;基于预设位置从所述样本编码数据中提取部分数据;基于所述部分数据确定所述样本数据对应的样本脱敏数据;通过至少一个任务处理模型分别处理其对应的样本脱敏数据,得到各任务处理模型对应的任务预测结果;通过数据重构模型处理所述样本编码数据,得到重构数据;至少调整所述编码器的模型参数,以使得各任务预测结果与对应的参考标准的差异减小,以及使得重构数据与所述样本数据的差异增大。
[0005]本说明书另一个方面提供一种编码器训练系统,包括:样本数据编码模块,用于通过编码器处理样本数据,得到样本编码数据;样本编码数据提取模块,用于基于预设位置从所述样本编码数据中提取部分数据;样本脱敏数据确定模块,用于基于所述部分数据 ...
【技术保护点】
【技术特征摘要】
1.一种编码器训练方法,包括:通过编码器处理样本数据,得到样本编码数据;基于预设位置从所述样本编码数据中提取部分数据;基于所述部分数据确定所述样本数据对应的样本脱敏数据;通过至少一个任务处理模型分别处理其对应的样本脱敏数据,得到各任务处理模型对应的任务预测结果;通过数据重构模型处理所述样本编码数据,得到重构数据;至少调整所述编码器的模型参数,以使得各任务预测结果与对应的参考标准的差异减小,以及使得重构数据与所述样本数据的差异增大。2.如权利要求1所述的方法,至少调整所述编码器的模型参数,还使得所述部分数据与所述编码数据中的剩余部分的相关性减小。3.如权利要求2所述的方法,至少调整所述编码器的模型参数,还使得所述部分数据的模值不小于预设值,以及使得所述编码数据中剩余部分的模值不小于预设值。4.如权利要求1所述的方法,所述任务处理模型的数量为两个或多个;所述部分数据包括两个或多个任务专有数据以及任务共有数据;所述基于所述部分数据确定所述样本数据对应的样本脱敏数据,包括:将两个或多个任务专有数据分别与所述任务共有数据组合,进而获得两个或多个样本脱敏数据,所述两个或多个样本脱敏数据与两个或多个任务处理模型一一对应。5.如权利要求4所述的方法,所述任务专有数据、任务共有数据以及所述编码数据中的剩余部分等长。6.如权利要求4所述的方法,至少调整所述编码器的模型参数,还使得所述两个或多个任务专有数据与所述编码数据中的剩余部分中的任意两个的相关性减小。7.如权利要求6所述的方法,至少调整所述编码器的模型参数,还使得所述两个或多个任务专有数据的模值不小于预设值,以及使得所述编码数据中的剩余部分的模值不小于预设值。8.如权利要求1所述的方法,所述至少调整所述编码器的模型参数,以使得各任务预测结果与对应的参考标准的差异减小,以及使得重构数据与所述样本数据的差异增大,还包括:调整所述至少一个任务处理模型的模型参数以及所述数据重构模型的模型参数。9.如权利要求8所述的方法,所述至少调整所述编码器的模型参数,以使得各任务预测结果与对应的参考标准的差异减小,以及使得重构数据与所述样本数据的差异增大,包括:调整所述至少一个任务处理模型的模型参数,以使得各任务预测结果与对应的参考标准的差异减小;调整所述数据重构模型的模型参数,以使得重构数据与所述样本数据的差异减小;利用调整后的至少一个任务处理模型分别处理其对应的所述样本脱敏数据,得到各任务处理模型对应的二次任务预测结果;利用调整后的数据重构模型处理所述样本编码数据,得到二次重构数据;调整所述编码器的模型参数,以使得各二次任务预测结果与对应的所述参考标准的差异减小,以及使得二次重构数据与所述样本数据的差异增大。
10.如权利要求9所述的方法,所述数据重构模型包括生成器与判别器;所述生成器用于处理所述样本编码数据,得到重构数据;所述调整所述数据重构模型的模型参数,以使得重构数据与所述样本数据的差异减小,包括:通过判别器处理所述重构数据,得到对应的分值;所述分值反映判别器判别被处理的数据为真的概率;调整所述生成器的模型参数,以使所述分值增大。11.如权利要求10所述的方法,所述调整所述数据重构模型的模型参数,以使得重构数据与所述样本数据的差异减小,还包括:通过判别器处理所述样本数据,得到对应的分值;调整所述判别器的模型参...
【专利技术属性】
技术研发人员:王莹桂,王力,张本宇,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。