一种数据生成方法及装置制造方法及图纸

技术编号：26791687 阅读：15 留言：0更新日期：2020-12-22 17:07

本发明专利技术公开了一种数据生成方法及装置，其中方法为：通过初始数据集完成对第一对抗模型的训练后，得到所述第一对抗模型输出的第一中间数据集和第二中间数据集；通过所述第一中间数据集和所述第二中间数据集完成对第二对抗模型的训练后，得到所述第二对抗模型输出的第三中间数据集；若满足终态收敛条件，则根据所述第三中间数据集，获得所述初始数据集的终态数据集。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据生成方法及装置
本专利技术涉及差分隐私
，尤其涉及一种数据生成方法及装置。
技术介绍
差分隐私是现有较为前沿的数据脱敏技术，其根本思想是通过向原始数据加入噪声后，使得数据不可通过分析，获得数据中用户的实际信息，即模糊数据的唯一指向性，从而满足ε-差分隐私。ε代表隐私保护水平，ε越大模糊原数据的程度越大，当数据集较大，涉及到局部多种隐私保护水平时，会极大增加差分隐私算法的设计难度。目前对一个数据集做差分隐私保护时，是根据数据的特性，人为分析得到一个隐私保护水平ε的值，基于ε对数据集加噪声。然而数据集是流动的，当数据集更新时，如加入了与原数据集隐私保护水平不同的新数据集，则需要重新设计隐私保护水平。人为分析很难及时、准确地设计做到这一点。这是因为当隐私保护程度过高时，严格的差分隐私算法将原始数据的可用性破坏。隐私保护程度过低又容易被共谋攻击等方式进行破解。这是一个亟待解决的问题。
技术实现思路
本专利技术提供一种数据生成方法及装置，解决了现有技术中难以设计准确的差分隐私保护水平的问题。第一方面，本专利技术提供一种数据生成方法，包括：通过初始数据集完成对第一对抗模型的训练后，得到所述第一对抗模型输出的第一中间数据集和第二中间数据集；所述第一对抗模型包括生成器和鉴别器；所述第一中间数据集为所述第一对抗模型训练完毕时被判定为所述初始数据集的数据集、所述第二中间数据集为所述第一对抗模型训练完毕时被判定为所述虚拟数据集的数据集；通过所述第一中间数据集和所述第二中间数据集完成对第二对...

【技术保护点】
1.一种数据生成方法，其特征在于，包括：/n通过初始数据集完成对第一对抗模型的训练后，得到所述第一对抗模型输出的第一中间数据集和第二中间数据集；所述第一对抗模型包括生成器和鉴别器；所述第一中间数据集为所述第一对抗模型训练完毕时被判定为所述初始数据集的数据集、所述第二中间数据集为所述第一对抗模型训练完毕时被判定为所述虚拟数据集的数据集；/n通过所述第一中间数据集和所述第二中间数据集完成对第二对抗模型的训练后，得到所述第二对抗模型输出的第三中间数据集；所述第二对抗模型包括所述鉴别器和差分隐私标识器；所述差分隐私标识器用于确定所述第一中间数据集是否符合差分隐私要求；所述鉴别器还用于在所述第一中间数据集不符合所述差分隐私要求时，更新所述第一中间数据集；所述第三中间数据集为所述第二对抗模型训练完毕时的所述第一中间数据集；/n若满足终态收敛条件，则根据所述第三中间数据集，获得所述初始数据集的终态数据集。/n

【技术特征摘要】
1.一种数据生成方法，其特征在于，包括：
通过初始数据集完成对第一对抗模型的训练后，得到所述第一对抗模型输出的第一中间数据集和第二中间数据集；所述第一对抗模型包括生成器和鉴别器；所述第一中间数据集为所述第一对抗模型训练完毕时被判定为所述初始数据集的数据集、所述第二中间数据集为所述第一对抗模型训练完毕时被判定为所述虚拟数据集的数据集；
通过所述第一中间数据集和所述第二中间数据集完成对第二对抗模型的训练后，得到所述第二对抗模型输出的第三中间数据集；所述第二对抗模型包括所述鉴别器和差分隐私标识器；所述差分隐私标识器用于确定所述第一中间数据集是否符合差分隐私要求；所述鉴别器还用于在所述第一中间数据集不符合所述差分隐私要求时，更新所述第一中间数据集；所述第三中间数据集为所述第二对抗模型训练完毕时的所述第一中间数据集；
若满足终态收敛条件，则根据所述第三中间数据集，获得所述初始数据集的终态数据集。

2.如权利要求1所述的方法，其特征在于，所述通过初始数据集完成对第一对抗模型的训练后，得到所述第一对抗模型输出的第一中间数据集和第二中间数据集，包括：
针对所述初始数据集的任一子初始数据集，将所述子初始数据集输入至所述生成器，生成所述虚拟数据集的子虚拟数据集；
将所述子初始数据集和所述子虚拟数据集输入至所述鉴别器，判定得到第一过程数据集和第二过程数据集；所述第一过程数据集为被所述鉴别器判定为所述子初始数据集的数据集；所述第二过程数据集为被所述鉴别器判定为所述子虚拟数据集的数据集；
根据所述第一过程数据集、所述子初始数据集和所述子虚拟数据集，获得第一损失函数值和第二损失函数值；所述第一损失函数值表征了所述第一过程数据集中抽取的数据为所述初始数据集中数据的准确性；所述第二损失函数值表征了所述第一过程数据集中抽取的数据为所述虚拟数据集中数据的准确性；
若满足第一对抗收敛条件，则将所述第一过程数据集作为所述第一中间数据集的第一子中间数据集，将所述第二过程数据集作为所述第二中间数据集的第二子中间数据集；否则，根据所述第一损失函数值和所述第二损失函数值，调整所述生成器的训练参数和所述鉴别器的训练参数，并将所述第一过程数据集作为所述初始数据集的子初始数据集，返回所述“将所述子初始数据集输入至所述生成器，生成所述虚拟数据集的子虚拟数据集”的步骤，从而更新所述子初始数据集和所述子虚拟数据集，继续迭代训练。

3.如权利要求2所述的方法，其特征在于，所述第一损失函数值具体为：所述第一过程数据集中抽取的数据为所述初始数据集中数据的期望值；所述第二损失函数值具体为：所述第一过程数据集中抽取的数据为所述虚拟数据集中数据的期望值。

4.如权利要求1所述的方法，其特征在于，所述通过所述第一中间数据集和所述第二中间数据集完成对第二对抗模型的训练后，得到所述第二对抗模型输出的第三中间数据集，包括：
针对所述第一中间数据集中任一第一子中间数据集以及所述第二中间数据集中任一第二子中间数据集，执行以下步骤：
将所述第一子中间数据集输入至所述差分隐私标识器，确定所述第一子中间数据集是否满足所述差分隐私要求；
若满足所述差分隐私要求，则将所述第一子中间数据集作为所述第三中间数据集的第三子中间数据集；
若不满足所述差分隐私要求，且不满足第二对抗收敛条件，则根据所述第一子中间数据集、所述初始数据集和所述虚拟数据集，获得第三损失函数值和第四损失函数值；所述第三损失函数值表征了所述第...

【专利技术属性】
技术研发人员：高雪松，张淯易，陈维强，
申请(专利权)人：青岛海信电子产业控股股份有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人