一种多用户参与的师生训练模型的图片数据生成方法技术

技术编号：40521209 阅读：10 留言：0更新日期：2024-03-01 13:39

本发明专利技术公开了一种多用户参与的师生训练模型的生成数据方法，其步骤包括：1、多个用户各自获取手写图片数据集；2、每个用户在本地训练教师模型(鉴别器)，并计算损失；3、用户上传损失到中心服务器；4、由中心服务器对本地用户上传的数据进行加噪聚合处理；5、中心服务器将处理好的数据传送到用于训练生成器的公开服务器；6、公开服务器根据中心服务器传输的数据训练学生模型(生成器)，以提供假手写图片数据集。本发明专利技术能有效地保护用户隐私，使多个用户参与训练，避免数据孤岛问题，同时训练出能够拟合真实数据的数据集。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于生成对抗网络领域，具体的说是一种多用户参与的师生训练模型的图片数据生成方法。

技术介绍

1、生成对抗网络(generative adversarial networks，简称gans)是一种深度学习模型，由ian goodfellow等人于2014年首次提出。gans的创新在于引入了生成器和判别器两个网络，并通过对抗训练的方式使它们相互竞争，从而推动模型学习到更高层次的表示和生成能力。gans的基本原理可以简化为一个最优化问题，即找到一个平衡点，使得生成器生成的样本足够逼真，判别器无法准确区分真伪样本。这个平衡点对应于生成器学到了数据分布的特征，能够生成高质量的样本。由于gans的创新性和广泛适用性，它很快成为深度学习领域的研究热点。gans在图像生成、风格转换、超分辨率、文本生成等任务上取得了显著的成果，并在各个领域展现了巨大的潜力。

2、然而，在实际应用过程中，可能会存在多个用户拥有数据集，需要共同训练的情况，然而将自己的数据直接上传到可信第三方会消耗大量的传输时间；其次，训练过程中可能会存在信息泄露使得恶意第三方可以根据训练中的信息获取敏感信息。因此，如何在不泄露参与训练用户的数据集的敏感信息的同时实现多用户参与的训练变得尤为重要。

技术实现思路

1、本专利技术是为了解决上述现有技术存在的不足之处，提出一种多用户参与的师生训练模型的图片数据生成方法，以期能生成满足差分隐私保护的手写数字图片，不会泄露用户拥有的数据集的敏感信息，从而保证隐私数据的安全性。

2、本专利技术为达到上述专利技术目的，采用如下技术方案：

3、本专利技术一种多用户参与的师生训练模型的图片数据生成方法的特点在于，是按如下步骤进行：

4、步骤1、获取n个用户各自的手写数字图片数据集，其中，令第j个用户的手写数字图片数据集记为表示第j个用户的第s张手写数字图片，的维度为p×p，s为每个用户的手写数字图片的总数，1≤s≤s，1≤j≤n；

5、步骤2、在n个用户的本地服务器上各自搭建自身的鉴别器；

6、每个鉴别器由m+1个鉴别子单元串联而成，前m个鉴别子单元是由一个卷积层、归一化层和激活函数层依次组成，其中的激活函数使用leakyrelu函数；第m+1个鉴别子单元是由一个卷积层和激活函数层，其中的激活函数为sigmoid()函数；

7、在公开服务器上搭建一个生成器，所述生成器由m+1个生成子单元串联而成，前m个生成子单元是由一个反卷积层、归一化层和激活层依次组成，其中的激活函数使用relu函数；第m+1个生成子单元由一个反卷积层和激活函数层依次组成，其中，激活函数使用tanh()；

8、步骤3、生成器根据随机噪声生成假数据：

9、步骤3.1、定义随机噪声函数p(z)＝lap(μ,λ)，其中，z表示噪声，μ表示位置参数，且μ＝0，λ表示尺度参数，且0＜λ≤1，lap()表示拉普拉斯随机噪声的生成函数；

10、步骤3.2、在随机噪声函数p(z)中随机抽取k个噪声值作为随机噪声，记为噪声数据集z＝{z1,z2,...,zi,...,zk}并分别发送给n个用户的本地服务器，其中，zi表示第i个随机噪声；

11、步骤3.3、生成器将每个随机噪声视为一张维度为1×1的图片并进行处理，最终输出k张维度为p×p的假手写数字图片，形成假手写数字图片数据集y＝{y1,y2,...,yi,...,yk}，yi表示zi对应生成的假手写数字图片；

12、步骤4、第j个用户的鉴别器从xj中随机抽取k张手写数字图片并与k个生成器生成的假手写数字图片进行真假鉴别，并最终相应输出k张手写数字图片对应的鉴别结果集和k张假手写数字图片对应的鉴别结果集其中，表示xj中随机抽取的第i张手写数字图片对应的鉴别结果，表示yi对应的鉴别结果，1≤i≤k，

13、步骤5、利用式(1)和式(2)分别计算第j个用户的鉴别结果在真实手写数字图片上的损失real_lossj和假手写数字图片上的损失fake_lossj：

14、

15、

16、式(1)和式(2)中，是与鉴别结果对应的真实结果，是与鉴别结果对应的真实结果；

17、利用式(3)得到第j个用户的实际损失lossj：

18、

19、步骤6、按照步骤3的过程生成新的假手写数字图片数据集y′，并发送给第j个用户的鉴别器进行鉴别，生成第j个用户对y′的鉴别结果集

20、利用式(4)计算第j个用户对第i张新的假手写数字图片y’i的损失

21、

22、式(4)中，fi′j表示第i张新的假手写数字图片y’i的真实结果，表示第i张新的假手写数字图片y’i经过第j个用户的鉴别器后输出的鉴别结果；

23、步骤7、第j个用户将损失发送到中心服务器，由中心服务器对损失进行加噪；

24、步骤7.1、中心服务器利用式(5)对损失进行裁剪，得到剪裁后的损失

25、

26、式(5)中，c表示裁剪阈值；

27、步骤7.2、中心服务器利用式(6)对损失进行加噪聚合，得到加噪聚合后的总损失g_loss：

28、

29、式(6)中，σ表示高斯分布的标准差，n()表示高斯分布函数；

30、步骤7.3、中心服务器利用式(7)计算隐私预算ε：

31、

32、式(7)中，k为一次抽取图片的数量，s为用户拥有的总图片数量，t为训练的总轮数，δ是允许的差分隐私松弛范围；

33、步骤8、所述中心服务器将加噪聚合后的总损失分别发送到公开服务器的生成器上，所述生成器根据总损失进行参数更新的同时，n个用户的本地服务器上的鉴别器根据每个用户的实际损失，与生成器进行交替训练相互对抗，并根据损失调整各自的网络参数，使得生成器的总损失不再降低为止，从而得到满足差分隐私参数(ε,δ)的生成器，用于生成拟合真实手写数字图片的假图片，并对外提供假手写数字图片数据集，以防止泄露个人手写数字的敏感特征。

34、本专利技术一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述图片数据生成方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

35、本专利技术一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述图片数据生成方法的步骤。

36、与现有技术相比，本专利技术的有益效果在于：

37、1、相对于传统的差分隐私保护的生成对抗网络模型，本专利技术对训练过程中的损失进行加噪而非对梯度记性加噪，通过使用差分隐私保护机制，由中心服务器进行加噪聚合，能够加快训练过程并且维持对隐私数据的保护，从而维持了模型训练的准确性，在使用手写数字数据集训练时能够更快的收敛，并且不会降低对手写数字数据集中的敏感信息的保护程度。

...

【技术保护点】

1.一种多用户参与的师生训练模型的图片数据生成方法，其特征在于，是按如下步骤进行：

2.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1所述图片数据生成方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

3.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1所述图片数据生成方法的步骤。

【技术特征摘要】

1.一种多用户参与的师生训练模型的图片数据生成方法，其特征在于，是按如下步骤进行：

2.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1所述图片数据生成方法的程序...

【专利技术属性】
技术研发人员：张顺，胡建豪，卢瑞龙，严全，程新亮，陈海亮，崔小娟，邹铭敏，
申请(专利权)人：安徽大学绿色产业创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人