System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于知识蒸馏的生成对抗网络模型的隐私数据生成方法及系统技术方案_技高网

基于知识蒸馏的生成对抗网络模型的隐私数据生成方法及系统技术方案

技术编号:40308393 阅读:8 留言:0更新日期:2024-02-07 20:52
本发明专利技术属于隐私数据生成技术领域,公开了基于知识蒸馏的生成对抗网络模型的隐私数据生成方法及系统,包括生成器生成一批数据,并将生成数据与真实数据传递给教师鉴别器,教师鉴别器学习如何判别真实数据和生成数据;教师鉴别器通过梯度裁切,在进行自我更新的时候遗忘部分敏感信息;通过教师鉴别器对生成数据的所打标签,学生鉴别器学习教师鉴别器知识,并更新相关权重信息;生成器通过学生鉴别器对生成数据的判定进行更新,重复上述步骤直至生成器收敛。本发明专利技术通过知识蒸馏,利用生成对抗网络可以无限生成数据特点,通过教师鉴别器对生成数据打标签,将所学知识迁移至学生鉴别器,在保证生成对抗网络模型性能的同时,提高其抵抗成员推断攻击的能力。

【技术实现步骤摘要】

本专利技术属于隐私数据生成,尤其涉及基于知识蒸馏的生成对抗网络模型的隐私数据生成方法。


技术介绍

1、数据共享是机器学习的重要驱动力,生成对抗网络(generative adversarialnetworks,gans)提供了一种共享数据而无需发布带有敏感信息的原始数据集方法。然而最近的研究表明,gans也面临着成员隐私泄露的威胁,尤其是成员推断攻击(memberinference attack,mia)。差分隐私(differential privacy,dp)是一种有效的隐私保护技术可以缓解这一问题,然而它会降低生成数据的质量和多样性。

2、随着近些年对于gan结构的研究,有学者发现gan模型隐私风险主要来源之一是模型记住训练数据,这使得gan模型极容易受到类似成员推断攻击的威胁。有研究提出通过在模型中加入对抗性正则化项,以提高模型的泛化效果来防止成员推断攻击成功,使模型做出足够模糊的预测来欺骗攻击者,同时保持模型性能。此外有人提出了使用知识蒸馏来防御成员推断攻击,利用隐私训练集的数据来训练学生网络,从而隔离隐私数据信息的传递。该方法不需要额外的公开数据集,但是可能降低合成数据的质量。在前者基础上先也有方法提出类似的思想,使用新型架构集成自蒸馏数据集进行成员推理攻击的防御,但是不需要使用额外公开数据集,在一定程度上隔离了隐私数据信息被传递给学生网络的可能。

3、通过上述分析,现有技术存在的问题及缺陷为:生成对抗网络模型的鉴别器也会受到内部攻击,会造成模型隐私泄露。


技术实现思路

1、针对现有技术存在的问题,本专利技术提供了一种基于知识蒸馏的生成对抗网络模型的隐私数据生成方法。

2、本专利技术是这样实现的,一种基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,该隐私数据生成方法结合了知识蒸馏和生成对抗网络,通过教师鉴别器与学生鉴别器的联合训练实现了对敏感信息的遗忘,同时保留了数据的基本特性;利用梯度裁切使教师鉴别器在自我更新时遗忘部分敏感信息,从而在维护数据隐私的同时,指导学生鉴别器和生成器达到更优的生成效果。这为高效且安全地生成隐私敏感的数据开辟了新途径。

3、进一步,包括以下步骤:

4、步骤一,生成器生成一批数据,并将生成数据与真实数据传递给教师鉴别器,教师鉴别器学习如何判别真实数据和生成数据;

5、步骤二,教师鉴别器通过梯度裁切,在进行自我更新的时候遗忘部分敏感信息;

6、步骤三,通过教师鉴别器对生成数据的所打标签,学生鉴别器学习教师鉴别器知识,并更新相关权重信息;

7、步骤四,生成器通过学生鉴别器对生成数据的判定进行更新,重复上述步骤直至生成器收敛。

8、进一步,所述步骤二在教师鉴别器的更新过程中,采用梯度压缩技术,抵御来自内部成员推断攻击对鉴别器攻击。

9、进一步,所述步骤二教师鉴别器的梯度裁切具体包括:

10、(1)选择每个教师梯度中的前50%维度并放入向量中,将其余维度设置为零;

11、(2)将每个维度的梯度裁切到一个阈值范围内,再将梯度向量进行归一化得到;

12、(3)将的梯度向量转换为一个稀疏向量,并替换对应的向量中的值。

13、进一步,所述步骤三中通过知识蒸馏将教师鉴别器向学生鉴别器传递知识,使生成器无法访问到真实数据。

14、本专利技术的另一目的在于提供一种基于知识蒸馏的生成对抗网络模型的隐私数据生成方法的基于知识蒸馏的生成对抗网络模型的隐私数据生成系统,该系统包括:生成器,教师鉴别器,学生鉴别器;

15、所述生成器,用于生成数据,并将数据传递给教师鉴别器;

16、所述教师鉴别器,用于更新学生鉴别器;

17、所述学生鉴别器,用于训练生成器。

18、进一步,利用生成器生成数据,将带有隐私信息的原始数据和生成器生成的数据,通过不断地训练迭代更新教师模块和学生模块。

19、结合上述的技术方案和解决的技术问题,本专利技术所要保护的技术方案所具备的优点及积极效果为:

20、第一,本专利技术通过知识蒸馏,利用生成对抗网络可以无限生成数据特点,通过教师鉴别器对生成数据打标签,将所学知识迁移至学生鉴别器,在保证生成对抗网络模型性能的同时,提高其抵抗成员推断攻击的能力。

21、本专利技术利用知识蒸馏的思想来保护gans模型的隐私。其一,知识蒸馏可以提升模型的泛化效果,降低泛化差距的同时提高图像生成质量;其二,利用知识蒸馏可以隔离教师鉴别器和生成器之间的隐私数据传递,防止信息通过梯度泄露给生成器。

22、第二,本专利技术保证在不影响gans模型性能的前提下,通过知识蒸馏来隔离隐私数据及相关信息,并提升模型的泛化效果来降低生成器的隐私泄露问题。

23、本专利技术设计了梯度压缩算法更好的保护模型,防止内部攻击者通过攻击鉴别器而泄露成员隐私。

24、本专利技术通过实验比较对不同成员推理攻击防御效果,以及比较不同的基准架构之间的合成数据质量的效果以及泛化能力。本专利技术隔离了原始数据并减少了训练模型的泛化差距,从而提供更强的对抗成员推断攻击的防御能力。

25、第三,基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,每个步骤都取得了显著的技术进步:

26、1.步骤一:生成器生成一批数据,并将生成数据与真实数据传递给教师鉴别器,教师鉴别器学习如何判别真实数据和生成数据。这样的设计使得教师鉴别器在学习过程中,既得到了真实数据的信息,也学习了生成器生成数据的特性。这在技术上的进步是使得教师鉴别器能够更好地适应和理解生成器生成的数据。

27、2.步骤二:教师鉴别器通过梯度裁切,在进行自我更新的时候遗忘部分敏感信息。这是一种保护隐私的技术,通过限制教师鉴别器的梯度,可以减少教师鉴别器在更新过程中泄露的敏感信息。这在技术上的进步是提高了数据的隐私性。

28、3.步骤三:通过教师鉴别器对生成数据的所打标签,学生鉴别器学习教师鉴别器知识,并更新相关权重信息。这个过程称为知识蒸馏,其技术进步在于,可以通过比较小的学生鉴别器学习大的教师鉴别器的知识,既提高了模型的效率,又保持了模型的性能。

29、4.步骤四:生成器通过学生鉴别器对生成数据的判定进行更新,重复上述步骤直至生成器收敛。这个步骤的技术进步在于,生成器可以通过学生鉴别器的反馈,不断优化和修正生成的数据,使得生成的数据越来越接近真实数据,同时保护了数据的隐私。

30、总的来说,这种基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,在保护隐私,提高模型效率,保持模型性能等方面都取得了显著的技术进步。

本文档来自技高网...

【技术保护点】

1.一种基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,其特征在于,该隐私数据生成方法结合了知识蒸馏和生成对抗网络,通过教师鉴别器与学生鉴别器的联合训练实现了对敏感信息的遗忘,同时保留了数据的基本特性;利用梯度裁切使教师鉴别器在自我更新时遗忘部分敏感信息,从而在维护数据隐私的同时,指导学生鉴别器和生成器达到更优的生成效果。

2.如权利要求1所述的基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,其特征在于,包括以下步骤:

3.如权利要求1所述的基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,其特征在于,所述步骤二在教师鉴别器的更新过程中,采用梯度压缩技术,抵御来自内部成员推断攻击对鉴别器的攻击。

4.如权利要求2所述的基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,其特征在于,所述步骤二教师鉴别器的梯度裁切具体包括:

5.如权利要求2所述的基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,其特征在于,所述步骤三中通过知识蒸馏将教师鉴别器向学生鉴别器传递知识,使生成器无法访问到真实数据。

6.如权利要求2所述的基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,其特征在于,所述步骤四中生成器的更新是基于学生鉴别器的反馈,以此优化生成数据的质量,同时确保数据的隐私性。

7.如权利要求2所述的基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,其特征在于,所述的生成器、教师鉴别器和学生鉴别器都是深度学习网络,且各自的参数更新都基于损失函数的反向传播。

8.如权利要求1~7任一项所述的一种基于知识蒸馏的生成对抗网络模型的隐私数据生成方法的基于知识蒸馏的生成对抗网络模型的隐私数据生成系统,其特征在于,该系统包括:生成器,教师鉴别器,学生鉴别器;

9.如权利要求8所述的基于知识蒸馏的生成对抗网络模型的隐私数据生成系统,其特征在于,利用生成器生成数据,将带有隐私信息的原始数据和生成器生成的数据,通过不断地训练迭代更新教师模块和学生模块。

...

【技术特征摘要】

1.一种基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,其特征在于,该隐私数据生成方法结合了知识蒸馏和生成对抗网络,通过教师鉴别器与学生鉴别器的联合训练实现了对敏感信息的遗忘,同时保留了数据的基本特性;利用梯度裁切使教师鉴别器在自我更新时遗忘部分敏感信息,从而在维护数据隐私的同时,指导学生鉴别器和生成器达到更优的生成效果。

2.如权利要求1所述的基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,其特征在于,包括以下步骤:

3.如权利要求1所述的基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,其特征在于,所述步骤二在教师鉴别器的更新过程中,采用梯度压缩技术,抵御来自内部成员推断攻击对鉴别器的攻击。

4.如权利要求2所述的基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,其特征在于,所述步骤二教师鉴别器的梯度裁切具体包括:

5.如权利要求2所述的基于知识蒸馏的生成对抗网络模型的隐私数据生成方法,其特征在于,所述步骤...

【专利技术属性】
技术研发人员:于娟张天汉韩建民邱晟彭浩杨琼
申请(专利权)人:浙江师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1