一种数据生成方法及装置制造方法及图纸

技术编号:26791687 阅读:15 留言:0更新日期:2020-12-22 17:07
本发明专利技术公开了一种数据生成方法及装置,其中方法为:通过初始数据集完成对第一对抗模型的训练后,得到所述第一对抗模型输出的第一中间数据集和第二中间数据集;通过所述第一中间数据集和所述第二中间数据集完成对第二对抗模型的训练后,得到所述第二对抗模型输出的第三中间数据集;若满足终态收敛条件,则根据所述第三中间数据集,获得所述初始数据集的终态数据集。

【技术实现步骤摘要】
一种数据生成方法及装置
本专利技术涉及差分隐私
,尤其涉及一种数据生成方法及装置。
技术介绍
差分隐私是现有较为前沿的数据脱敏技术,其根本思想是通过向原始数据加入噪声后,使得数据不可通过分析,获得数据中用户的实际信息,即模糊数据的唯一指向性,从而满足ε-差分隐私。ε代表隐私保护水平,ε越大模糊原数据的程度越大,当数据集较大,涉及到局部多种隐私保护水平时,会极大增加差分隐私算法的设计难度。目前对一个数据集做差分隐私保护时,是根据数据的特性,人为分析得到一个隐私保护水平ε的值,基于ε对数据集加噪声。然而数据集是流动的,当数据集更新时,如加入了与原数据集隐私保护水平不同的新数据集,则需要重新设计隐私保护水平。人为分析很难及时、准确地设计做到这一点。这是因为当隐私保护程度过高时,严格的差分隐私算法将原始数据的可用性破坏。隐私保护程度过低又容易被共谋攻击等方式进行破解。这是一个亟待解决的问题。
技术实现思路
本专利技术提供一种数据生成方法及装置,解决了现有技术中难以设计准确的差分隐私保护水平的问题。第一方面,本专利技术提供一种数据生成方法,包括:通过初始数据集完成对第一对抗模型的训练后,得到所述第一对抗模型输出的第一中间数据集和第二中间数据集;所述第一对抗模型包括生成器和鉴别器;所述第一中间数据集为所述第一对抗模型训练完毕时被判定为所述初始数据集的数据集、所述第二中间数据集为所述第一对抗模型训练完毕时被判定为所述虚拟数据集的数据集;通过所述第一中间数据集和所述第二中间数据集完成对第二对抗模型的训练后,得到所述第二对抗模型输出的第三中间数据集;所述第二对抗模型包括所述鉴别器和差分隐私标识器;所述差分隐私标识器用于确定所述第一中间数据集是否符合差分隐私要求;所述鉴别器还用于在所述第一中间数据集不符合所述差分隐私要求时,更新所述第一中间数据集;所述第三中间数据集为所述第二对抗模型训练完毕时的所述第一中间数据集;若满足终态收敛条件,则根据所述第三中间数据集,获得所述初始数据集的终态数据集。上述方法中,通过训练第一对抗模型,使得生成器和鉴别器形成对抗,既考虑了所述生成器生成有效伪装所述初始数据集的所述虚拟数据集的生成性能,又考虑了鉴别器有效鉴别所述初始数据集和所述虚拟数据集的鉴别性能,进一步地,可以通过第二对抗模型,使得所述鉴别器和差分隐私标识器形成对抗,从而加入了隐私差分要求的考虑,并在满足所述终态收敛条件的情况下,根据所述第三中间数据集,获得终态数据集,从而通过第一对抗模型、第二对抗模型自适应地生成满足所述差分隐私要求的终态数据集。可选的,针对所述初始数据集的任一子初始数据集,将所述子初始数据集输入至所述生成器,生成所述虚拟数据集的子虚拟数据集;将所述子初始数据集和所述子虚拟数据集输入至所述鉴别器,判定得到第一过程数据集和第二过程数据集;所述第一过程数据集为被所述鉴别器判定为所述子初始数据集的数据集;所述第二过程数据集为被所述鉴别器判定为所述子虚拟数据集的数据集;根据所述第一过程数据集、所述子初始数据集和所述子虚拟数据集,获得第一损失函数值和第二损失函数值;所述第一损失函数值表征了所述第一过程数据集中抽取的数据为所述初始数据集中数据的准确性;所述第二损失函数值表征了所述第一过程数据集中抽取的数据为所述虚拟数据集中数据的准确性;若满足第一对抗收敛条件,则将所述第一过程数据集作为所述第一中间数据集的第一子中间数据集,将所述第二过程数据集作为所述第二中间数据集的第二子中间数据集;否则,根据所述第一损失函数值和所述第二损失函数值,调整所述生成器的训练参数和所述鉴别器的训练参数,并将所述第一过程数据集作为所述初始数据集的子初始数据集,返回所述“将所述子初始数据集输入至所述生成器,生成所述虚拟数据集的子虚拟数据集”的步骤,从而更新所述子初始数据集和所述子虚拟数据集,继续迭代训练。上述方法中,通过将所述子初始数据集输入至所述生成器,生成所述虚拟数据集的子虚拟数据集,以及根据所述第一过程数据集、所述子初始数据集和所述子虚拟数据集,获得第一损失函数值和第二损失函数值,并根据所述第一损失函数值和所述第二损失函数值,调整所述生成器的训练参数和所述鉴别器的训练参数,直至满足第一对抗收敛条件,从而通过所述鉴别器和所述生成器的对抗,得到更准确的第一中间数据集和第二中间数据集。可选的,所述第一损失函数值具体为:所述第一过程数据集中抽取的数据为所述初始数据集中数据的期望值;所述第二损失函数值具体为:所述第一过程数据集中抽取的数据为所述虚拟数据集中数据的期望值。上述方法中,期望值可以更准确地表征抽取的数据为所述初始数据集中数据的准确性,从而可以更准确地训练出所述第一对抗模型。可选的,所述通过所述第一中间数据集和所述第二中间数据集完成对第二对抗模型的训练后,得到所述第二对抗模型输出的第三中间数据集,包括:针对所述第一中间数据集中任一第一子中间数据集以及所述第二中间数据集中任一第二子中间数据集,执行以下步骤:将所述第一子中间数据集输入至所述差分隐私标识器,确定所述第一子中间数据集是否满足所述差分隐私要求;若满足所述差分隐私要求,则将所述第一子中间数据集作为所述第三中间数据集的第三子中间数据集;若不满足所述差分隐私要求,且不满足第二对抗收敛条件,则根据所述第一子中间数据集、所述初始数据集和所述虚拟数据集,获得第三损失函数值和第四损失函数值;所述第三损失函数值表征了所述第一子中间数据集中抽取的数据为所述初始数据集中数据的准确性;所述第四损失函数值表征了所述第二子中间数据集中抽取的数据为所述初始数据集中数据的准确性;根据所述第三损失函数值和所述第四损失函数值,调整所述鉴别器的训练参数;若满足所述差分隐私识别模型的预设参数调整条件,则根据所述第三损失函数值和所述第四损失函数值调整所述差分隐私识别模型的训练参数;根据调整了训练参数后的所述鉴别器,或者根据调整了训练参数后的所述鉴别器以及调整了训练参数后的所述差分隐私识别模型,重新对所述第一子中间数据集和所述第二子中间数据集判别,从而更新所述第一子中间数据集和所述第二子中间数据集,返回所述“将所述第一子中间数据集输入至所述差分隐私标识器,确定所述第一子中间数据集是否满足所述差分隐私要求”的步骤,从而继续迭代训练。上述方式下,通过将所述第一子中间数据集输入至所述差分隐私标识器,确定所述第一子中间数据集是否满足所述差分隐私要求,并进一步地根据所述第三损失函数值和所述第四损失函数值,调整所述鉴别器的训练参数,直至满足所述差分隐私要求,通过第二对抗模型,自适应地得到更为准确、合适的所述差分隐私要求,进一步得到准确的终态数据集。可选的,所述第三损失函数值具体为:所述第一子中间数据集中抽取的数据为所述初始数据集中数据的期望值;所述第四损失函数值具体为:所述第一子中间数据集中抽取的数据为所述虚拟数据集中数据的期望值。上述方法中,期望值可以更准确地表征抽取的数据为所述初始数据集中数据的准确性,从而可以更准确地训练出所述第二对抗模型。可选的,所述若满足所述差分隐私识别模型的本文档来自技高网...

【技术保护点】
1.一种数据生成方法,其特征在于,包括:/n通过初始数据集完成对第一对抗模型的训练后,得到所述第一对抗模型输出的第一中间数据集和第二中间数据集;所述第一对抗模型包括生成器和鉴别器;所述第一中间数据集为所述第一对抗模型训练完毕时被判定为所述初始数据集的数据集、所述第二中间数据集为所述第一对抗模型训练完毕时被判定为所述虚拟数据集的数据集;/n通过所述第一中间数据集和所述第二中间数据集完成对第二对抗模型的训练后,得到所述第二对抗模型输出的第三中间数据集;所述第二对抗模型包括所述鉴别器和差分隐私标识器;所述差分隐私标识器用于确定所述第一中间数据集是否符合差分隐私要求;所述鉴别器还用于在所述第一中间数据集不符合所述差分隐私要求时,更新所述第一中间数据集;所述第三中间数据集为所述第二对抗模型训练完毕时的所述第一中间数据集;/n若满足终态收敛条件,则根据所述第三中间数据集,获得所述初始数据集的终态数据集。/n

【技术特征摘要】
1.一种数据生成方法,其特征在于,包括:
通过初始数据集完成对第一对抗模型的训练后,得到所述第一对抗模型输出的第一中间数据集和第二中间数据集;所述第一对抗模型包括生成器和鉴别器;所述第一中间数据集为所述第一对抗模型训练完毕时被判定为所述初始数据集的数据集、所述第二中间数据集为所述第一对抗模型训练完毕时被判定为所述虚拟数据集的数据集;
通过所述第一中间数据集和所述第二中间数据集完成对第二对抗模型的训练后,得到所述第二对抗模型输出的第三中间数据集;所述第二对抗模型包括所述鉴别器和差分隐私标识器;所述差分隐私标识器用于确定所述第一中间数据集是否符合差分隐私要求;所述鉴别器还用于在所述第一中间数据集不符合所述差分隐私要求时,更新所述第一中间数据集;所述第三中间数据集为所述第二对抗模型训练完毕时的所述第一中间数据集;
若满足终态收敛条件,则根据所述第三中间数据集,获得所述初始数据集的终态数据集。


2.如权利要求1所述的方法,其特征在于,所述通过初始数据集完成对第一对抗模型的训练后,得到所述第一对抗模型输出的第一中间数据集和第二中间数据集,包括:
针对所述初始数据集的任一子初始数据集,将所述子初始数据集输入至所述生成器,生成所述虚拟数据集的子虚拟数据集;
将所述子初始数据集和所述子虚拟数据集输入至所述鉴别器,判定得到第一过程数据集和第二过程数据集;所述第一过程数据集为被所述鉴别器判定为所述子初始数据集的数据集;所述第二过程数据集为被所述鉴别器判定为所述子虚拟数据集的数据集;
根据所述第一过程数据集、所述子初始数据集和所述子虚拟数据集,获得第一损失函数值和第二损失函数值;所述第一损失函数值表征了所述第一过程数据集中抽取的数据为所述初始数据集中数据的准确性;所述第二损失函数值表征了所述第一过程数据集中抽取的数据为所述虚拟数据集中数据的准确性;
若满足第一对抗收敛条件,则将所述第一过程数据集作为所述第一中间数据集的第一子中间数据集,将所述第二过程数据集作为所述第二中间数据集的第二子中间数据集;否则,根据所述第一损失函数值和所述第二损失函数值,调整所述生成器的训练参数和所述鉴别器的训练参数,并将所述第一过程数据集作为所述初始数据集的子初始数据集,返回所述“将所述子初始数据集输入至所述生成器,生成所述虚拟数据集的子虚拟数据集”的步骤,从而更新所述子初始数据集和所述子虚拟数据集,继续迭代训练。


3.如权利要求2所述的方法,其特征在于,所述第一损失函数值具体为:所述第一过程数据集中抽取的数据为所述初始数据集中数据的期望值;所述第二损失函数值具体为:所述第一过程数据集中抽取的数据为所述虚拟数据集中数据的期望值。


4.如权利要求1所述的方法,其特征在于,所述通过所述第一中间数据集和所述第二中间数据集完成对第二对抗模型的训练后,得到所述第二对抗模型输出的第三中间数据集,包括:
针对所述第一中间数据集中任一第一子中间数据集以及所述第二中间数据集中任一第二子中间数据集,执行以下步骤:
将所述第一子中间数据集输入至所述差分隐私标识器,确定所述第一子中间数据集是否满足所述差分隐私要求;
若满足所述差分隐私要求,则将所述第一子中间数据集作为所述第三中间数据集的第三子中间数据集;
若不满足所述差分隐私要求,且不满足第二对抗收敛条件,则根据所述第一子中间数据集、所述初始数据集和所述虚拟数据集,获得第三损失函数值和第四损失函数值;所述第三损失函数值表征了所述第...

【专利技术属性】
技术研发人员:高雪松张淯易陈维强
申请(专利权)人:青岛海信电子产业控股股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1