一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法技术

技术编号：21185117 阅读：41 留言：0更新日期：2019-05-22 15:44

本发明专利技术涉及一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法。包括步骤1：使用原始表格数据训练差分隐私生成模型；步骤2：使用原始表格数据在差分隐私预算下训练教师分类器；步骤3：使用生成模型生成“虚假”表格数据，并使用教师分类器对“虚假”表格数据预测标签，挑选预测标签和生成标签一致的数据，定义“可用”数据集，使用“可用”数据集训练学生分类器；步骤4：将生成模型和学生分类器发布，使用生成模型合成数据，使用学生模型挑选数据，完成数据分析任务。本发明专利技术方法是在数据发布阶段对表格数据实施隐私保护，数据分析师不可以通过生成模型复原原始训练数据，也不能通过学生模型推测原始训练数据，实现对原始表格数据的保护，并满足数据分析师对数据的需求。

A Tables Data Privacy Protection Method Based on Differential Privacy GAN and PATE Model

The invention relates to a table data privacy protection method combining differential privacy GAN and PATE model. It includes step 1: training differential privacy generation model with original table data; step 2: training teacher classifier under differential privacy budget with original table data; step 3: using generation model to generate \false\ table data, and using teacher classifier to predict \false\ table data label, selecting prediction label and generating data consistent with label, defining \available\ \u201d Data sets, using \available\ data sets to train student classifiers; Step 4: Publish the generated model and student classifier, use the generated model to synthesize data, use the student model to select data, and complete data analysis tasks. The method of the invention is to protect the privacy of the form data in the data publishing stage. The data analyst can not restore the original training data by generating the model, nor can he infer the original training data by the student model, so as to realize the protection of the original form data and meet the data analyst's needs.

全部详细技术资料下载

【技术实现步骤摘要】
一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法
本专利技术涉及对表格数据发布阶段的隐私保护方法，具体涉及一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法。
技术介绍
大数据时代,机器学习从数据集提取有用的信息训练模型，为人们生活提供便利，同时产生的数据安全和用户隐私问题也需要引起重视，数据隐私保护方法用来调和二者之间的利益冲突。生成对抗网络具有可以快速大规模生成数据的特点，但是训练集中个别样例对生成模型的影响较大，生成的数据可能会暴露个别样例的隐私问题。攻击者通过多次使用生成模型生成数据，再结合特殊计算方法可能会复原训练集中个别样例。因此，在对抗网络训练过程中引入差分隐私能降低个别样例对生成模型的影响，即对判别部分设置梯度裁剪阈值，使梯度更新在一定范围内。但是目前存在的方法通常固定裁剪阈值，本文提出梯度阈值自适应选取方法。并且本文创新性的提出使用教师系综聚合模型来挑选生成的“虚假”表格数据的方法，这样通过挑选后的“虚假”数据能够满足数据分析师对大量数据的需求，完成不同的数据分析任务。
技术实现思路
本专利技术的目的在于提供一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，该方法结合生成模型和分类模型实现对表格数据发布阶段的隐私保护。为实现上述目的，本专利技术的技术方案是：一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，包括如下步骤：步骤S1、使用原始表格数据训练差分隐私生成模型；步骤S2、使用原始表格数据在差分隐私预算下训练教师分类器；步骤S3、使用差分隐私生成模型生成虚假表格数据及对应生成标签，并使用教师分类器对虚...

【技术保护点】
1.一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，其特征在于，包括如下步骤：步骤S1、使用原始表格数据训练差分隐私生成模型；步骤S2、使用原始表格数据在差分隐私预算下训练教师分类器；步骤S3、使用差分隐私生成模型生成虚假表格数据及对应生成标签，并使用教师分类器对虚假表格数据预测标签，挑选预测标签和生成标签一致的数据，定义可用数据集，使用可用数据集训练学生分类器；步骤S4、将差分隐私生成模型和学生分类器发布，数据分析师使用差分隐私生成模型生成数据，而后通过学生分类器挑选数据，即可完成数据分析。

【技术特征摘要】
1.一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，其特征在于，包括如下步骤：步骤S1、使用原始表格数据训练差分隐私生成模型；步骤S2、使用原始表格数据在差分隐私预算下训练教师分类器；步骤S3、使用差分隐私生成模型生成虚假表格数据及对应生成标签，并使用教师分类器对虚假表格数据预测标签，挑选预测标签和生成标签一致的数据，定义可用数据集，使用可用数据集训练学生分类器；步骤S4、将差分隐私生成模型和学生分类器发布，数据分析师使用差分隐私生成模型生成数据，而后通过学生分类器挑选数据，即可完成数据分析。2.根据权利要求1所述的一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，其特征在于，所述步骤S1中，差分隐私生成模型训练过程包括两部分：生成对抗网络训练和判别模型添加噪音扰动，具体如下：步骤S11、对抗网络的选择：辅助分类生成对抗网络使用原始表格数据和标签作为输入，在判别模型部分不仅判别数据真假，还预测数据所属类别，因此选择辅助分类生成对抗网络作为差分隐私生成模型训练网络；步骤S12、扰动噪音的选择：差分隐私中添加的噪音大小和查询的敏感度相关，根据隐私预算值和自适应选取设定的梯度裁剪阈值，计算噪音大小。3.根据权利要求2所述的一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法，其特征在于，所述步骤S12，具体实现如下：首先，为了更好的设置梯度裁剪阈值，提出自适应选取设定梯度裁剪阈值：自适应选取设定梯度裁剪阈值是假定可以接触到与隐私数据同分布的部分公开数据，因此，根据首先使用公开数据训练生成网络，将部分公开数据的平均梯度值设定为隐私数据的梯度阈值；公式(1)中D，Nc是与隐私数据同分布的可使用公开数据集，每次训练时，从公开数据集采样，根据公式(2)计算梯度，再根据公式(3)计算采样数据的平均梯度，设置隐私数据的梯度裁剪阈值C为平均梯度；Δf＝maxd,d'||f(d)-f(d')||(6)g(xi)＝g(xi)+N(0,σ2C2I)(8)公式(5)是根据梯度裁剪阈值C设定的梯...

【专利技术属性】
技术研发人员：钟尚平，郭鹏，陈开志，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人