当前位置: 首页 > 专利查询>福州大学专利>正文

一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法技术

技术编号:21185117 阅读:41 留言:0更新日期:2019-05-22 15:44
本发明专利技术涉及一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法。包括步骤1:使用原始表格数据训练差分隐私生成模型;步骤2:使用原始表格数据在差分隐私预算下训练教师分类器;步骤3:使用生成模型生成“虚假”表格数据,并使用教师分类器对“虚假”表格数据预测标签,挑选预测标签和生成标签一致的数据,定义“可用”数据集,使用“可用”数据集训练学生分类器;步骤4:将生成模型和学生分类器发布,使用生成模型合成数据,使用学生模型挑选数据,完成数据分析任务。本发明专利技术方法是在数据发布阶段对表格数据实施隐私保护,数据分析师不可以通过生成模型复原原始训练数据,也不能通过学生模型推测原始训练数据,实现对原始表格数据的保护,并满足数据分析师对数据的需求。

A Tables Data Privacy Protection Method Based on Differential Privacy GAN and PATE Model

The invention relates to a table data privacy protection method combining differential privacy GAN and PATE model. It includes step 1: training differential privacy generation model with original table data; step 2: training teacher classifier under differential privacy budget with original table data; step 3: using generation model to generate \false\ table data, and using teacher classifier to predict \false\ table data label, selecting prediction label and generating data consistent with label, defining \available\ \u201d Data sets, using \available\ data sets to train student classifiers; Step 4: Publish the generated model and student classifier, use the generated model to synthesize data, use the student model to select data, and complete data analysis tasks. The method of the invention is to protect the privacy of the form data in the data publishing stage. The data analyst can not restore the original training data by generating the model, nor can he infer the original training data by the student model, so as to realize the protection of the original form data and meet the data analyst's needs.

【技术实现步骤摘要】
一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法
本专利技术涉及对表格数据发布阶段的隐私保护方法,具体涉及一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法。
技术介绍
大数据时代,机器学习从数据集提取有用的信息训练模型,为人们生活提供便利,同时产生的数据安全和用户隐私问题也需要引起重视,数据隐私保护方法用来调和二者之间的利益冲突。生成对抗网络具有可以快速大规模生成数据的特点,但是训练集中个别样例对生成模型的影响较大,生成的数据可能会暴露个别样例的隐私问题。攻击者通过多次使用生成模型生成数据,再结合特殊计算方法可能会复原训练集中个别样例。因此,在对抗网络训练过程中引入差分隐私能降低个别样例对生成模型的影响,即对判别部分设置梯度裁剪阈值,使梯度更新在一定范围内。但是目前存在的方法通常固定裁剪阈值,本文提出梯度阈值自适应选取方法。并且本文创新性的提出使用教师系综聚合模型来挑选生成的“虚假”表格数据的方法,这样通过挑选后的“虚假”数据能够满足数据分析师对大量数据的需求,完成不同的数据分析任务。
技术实现思路
本专利技术的目的在于提供一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法,该方法结合生成模型和分类模型实现对表格数据发布阶段的隐私保护。为实现上述目的,本专利技术的技术方案是:一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法,包括如下步骤:步骤S1、使用原始表格数据训练差分隐私生成模型;步骤S2、使用原始表格数据在差分隐私预算下训练教师分类器;步骤S3、使用差分隐私生成模型生成虚假表格数据及对应生成标签,并使用教师分类器对虚假表格数据预测标签,挑选预测标签和生成标签一致的数据,定义可用数据集,使用可用数据集训练学生分类器;步骤S4、将差分隐私生成模型和学生分类器发布,数据分析师使用差分隐私生成模型生成数据,而后通过学生分类器挑选数据,即可完成数据分析。在本专利技术一实施例中,所述步骤S1中,差分隐私生成模型训练过程包括两部分:生成对抗网络训练和判别模型添加噪音扰动,具体如下:步骤S11、对抗网络的选择:辅助分类生成对抗网络使用原始表格数据和标签作为输入,在判别模型部分不仅判别数据真假,还预测数据所属类别,因此选择辅助分类生成对抗网络作为差分隐私生成模型训练网络;步骤S12、扰动噪音的选择:差分隐私中添加的噪音大小和查询的敏感度相关,根据隐私预算值和自适应选取设定的梯度裁剪阈值,计算噪音大小。在本专利技术一实施例中,所述步骤S12,具体实现如下:首先,为了更好的设置梯度裁剪阈值,提出自适应选取设定梯度裁剪阈值:自适应选取设定梯度裁剪阈值是假定可以接触到与隐私数据同分布的部分公开数据,因此,根据首先使用公开数据训练生成网络,将部分公开数据的平均梯度值设定为隐私数据的梯度阈值;公式(1)中D,Nc是与隐私数据同分布的可使用公开数据集,每次训练时,从公开数据集采样,根据公式(2)计算梯度,再根据公式(3)计算采样数据的平均梯度,设置隐私数据的梯度裁剪阈值C为平均梯度;Δf=maxd,d'||f(d)-f(d')||(6)g(xi)=g(xi)+N(0,σ2C2I)(8)公式(5)是根据梯度裁剪阈值C设定的梯度裁剪阈值,对每个输入样例的梯度更新裁剪,当采样的隐私数据的梯度值小于设定的梯度裁剪阈值时,不对梯度值裁剪;当采样的隐私数据的梯度值大于或等于设定的梯度裁剪阈值时,令隐私数据的梯度值为梯度裁剪阈值;给定函数f,通过对f输出添加随机噪音实现差分隐私,噪音的大小取决于f输出的敏感度;如果f输出是向量值,则函数的敏感度Δf定义为公式(6),根据设定的梯度裁剪阈值,那么差分隐私生成模型判别部分的梯度更新的敏感度最大为2*C,公式(7)是差分隐私中噪音的计算公式,ε、δ分别是差分隐私中设定的隐私预算值和隐私暴露概率大小,公式(8)是对梯度值添加噪音N,此处选择高斯噪音实现对梯度值的扰动,以达到对抗网络的隐私保护。在本专利技术一实施例中,所述步骤S2中,教师分类器采用随机森林算法,结合差分隐私对聚合结果实现噪音扰动,具体如下:步骤S21、分类模型训练:基于随机森林算法原理,将原始表格数据分成n个子集,每个子集训练一个分类器,得到n个分类器的集合;步骤S22、投票结果噪音扰动:使用分类器集合对输入的数据投票预测标签,并对投票结果添加噪音,实施扰动,满足差分隐私的要求,并最终根据结果确定数据的标签。在本专利技术一实施例中,所述步骤S3,具体实现如下:步骤S31、生成模型生成数据:差分隐私生成模型用于虚假表格数据的生成,基于生成对抗网络的特点,差分隐私生成模型生成虚假表格数据和对应的生成标签;步骤S32、预测生成数据标签:虚假表格数据无法人眼分辨好坏,因此结合原始表格数据特征的特点,使用训练好的教师分类器,对虚假表格数据预测标签;步骤S33、挑选可用数据集:对预测标签和生成标签的比较,实现对生成的虚假表格数据的挑选,即当生成标签与预测标签一致,则定义数据为可用数据,组成可用数据集,否则舍弃生成的虚假表格数据;步骤S34、训练学生分类器:使用可用数据集训练得到学生分类器。相较于现有技术,本专利技术具有以下有益效果:本专利技术方法结合了生成模型和分类模型实现对表格数据发布阶段的隐私保护。附图说明图1为本专利技术方法流程示意图。图2为辅助分类生成对抗网络的结构。图3为发布模型使用方法流程图。具体实施方式下面结合附图,对本专利技术的技术方案进行具体说明。本专利技术提供了一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法,包括如下步骤:步骤S1、使用原始表格数据训练差分隐私生成模型;其中,差分隐私生成模型训练过程包括两部分:生成对抗网络训练和判别模型添加噪音扰动,具体如下:步骤S11、对抗网络的选择:辅助分类生成对抗网络使用原始表格数据和标签作为输入,在判别模型部分不仅判别数据真假,还预测数据所属类别,因此选择辅助分类生成对抗网络作为差分隐私生成模型训练网络;步骤S12、扰动噪音的选择:差分隐私中添加的噪音大小和查询的敏感度相关,根据隐私预算值和自适应选取设定的梯度裁剪阈值,计算噪音大小。步骤S2、使用原始表格数据在差分隐私预算下训练教师分类器;其中,教师分类器采用随机森林算法,结合差分隐私对聚合结果实现噪音扰动,具体如下:步骤S21、分类模型训练:基于随机森林算法原理,将原始表格数据分成n个子集,每个子集训练一个分类器,得到n个分类器的集合;步骤S22、投票结果噪音扰动:使用分类器集合对输入的数据投票预测标签,并对投票结果添加噪音,实施扰动,满足差分隐私的要求,并最终根据结果确定数据的标签。步骤S3、使用差分隐私生成模型生成虚假表格数据及对应生成标签,并使用教师分类器对虚假表格数据预测标签,挑选预测标签和生成标签一致的数据,定义可用数据集,使用可用数据集训练学生分类器;具体实现如下:步骤S31、生成模型生成数据:差分隐私生成模型用于虚假表格数据的生成,基于生成对抗网络的特点,差分隐私生成模型生成虚假表格数据和对应的生成标签;步骤S32、预测生成数据标签:虚假表格数据无法人眼分辨好坏,因此结合原始表格数据特征的特点,使用训练好的教师分类器,对虚假表格数据预测标签;步骤S33、挑选可用数据集:对预测标签和生成标签的比较,实现对生成本文档来自技高网...

【技术保护点】
1.一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法,其特征在于,包括如下步骤:步骤S1、使用原始表格数据训练差分隐私生成模型;步骤S2、使用原始表格数据在差分隐私预算下训练教师分类器;步骤S3、使用差分隐私生成模型生成虚假表格数据及对应生成标签,并使用教师分类器对虚假表格数据预测标签,挑选预测标签和生成标签一致的数据,定义可用数据集,使用可用数据集训练学生分类器;步骤S4、将差分隐私生成模型和学生分类器发布,数据分析师使用差分隐私生成模型生成数据,而后通过学生分类器挑选数据,即可完成数据分析。

【技术特征摘要】
1.一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法,其特征在于,包括如下步骤:步骤S1、使用原始表格数据训练差分隐私生成模型;步骤S2、使用原始表格数据在差分隐私预算下训练教师分类器;步骤S3、使用差分隐私生成模型生成虚假表格数据及对应生成标签,并使用教师分类器对虚假表格数据预测标签,挑选预测标签和生成标签一致的数据,定义可用数据集,使用可用数据集训练学生分类器;步骤S4、将差分隐私生成模型和学生分类器发布,数据分析师使用差分隐私生成模型生成数据,而后通过学生分类器挑选数据,即可完成数据分析。2.根据权利要求1所述的一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法,其特征在于,所述步骤S1中,差分隐私生成模型训练过程包括两部分:生成对抗网络训练和判别模型添加噪音扰动,具体如下:步骤S11、对抗网络的选择:辅助分类生成对抗网络使用原始表格数据和标签作为输入,在判别模型部分不仅判别数据真假,还预测数据所属类别,因此选择辅助分类生成对抗网络作为差分隐私生成模型训练网络;步骤S12、扰动噪音的选择:差分隐私中添加的噪音大小和查询的敏感度相关,根据隐私预算值和自适应选取设定的梯度裁剪阈值,计算噪音大小。3.根据权利要求2所述的一种融合差分隐私GAN和PATE模型的表格数据隐私保护方法,其特征在于,所述步骤S12,具体实现如下:首先,为了更好的设置梯度裁剪阈值,提出自适应选取设定梯度裁剪阈值:自适应选取设定梯度裁剪阈值是假定可以接触到与隐私数据同分布的部分公开数据,因此,根据首先使用公开数据训练生成网络,将部分公开数据的平均梯度值设定为隐私数据的梯度阈值;公式(1)中D,Nc是与隐私数据同分布的可使用公开数据集,每次训练时,从公开数据集采样,根据公式(2)计算梯度,再根据公式(3)计算采样数据的平均梯度,设置隐私数据的梯度裁剪阈值C为平均梯度;Δf=maxd,d'||f(d)-f(d')||(6)g(xi)=g(xi)+N(0,σ2C2I)(8)公式(5)是根据梯度裁剪阈值C设定的梯...

【专利技术属性】
技术研发人员:钟尚平郭鹏陈开志
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1