一种基于生成对抗网络的隐私保护数据生成方法技术

技术编号:37239118 阅读:10 留言:0更新日期:2023-04-20 23:20
本发明专利技术公开了一种基于生成对抗网络的隐私保护数据生成方法,涉及数据生成领域,包括如下步骤:构建前置自编码器;构建生成对抗网络模型;将自编码器应用于生成对抗网络模型的数据生成。该方法使用预训练的自编码器将给定数据集映射到低维连续空间,通过低维空间中的生成器和原始数据空间中的鉴别器进行对抗学习从而获得具有模拟真实数据的生成模型。该方法可以有效解决在隐私保护政策下,在获取训练数据时经常收到限制而导致训练数据集匮乏问题。题。题。

【技术实现步骤摘要】
一种基于生成对抗网络的隐私保护数据生成方法


[0001]本专利技术涉及数据生成领域,具体是一种基于生成对抗网络的隐私保护数据生成方法。

技术介绍

[0002]随着大数据技术的发展和进步,大数据对经济发展、社会治理和人民生活产生了巨大影响,给人们带来精确、便捷服务端同时,也潜在着泄露用户隐私信息的风险。为了降低隐私泄露造成的负面影响,有关部门不断通过完善隐私保护法律法规对企业及个人进行监管,以此减少或限制数据的共享和开放。
[0003]在这样的背景下,大数据分析时常常会遇到数据匮乏、训练样本过少等问题。为了解决该问题,基于深度学习的数据生成方法应运而生。深度生成模型是一种高度灵活和可表达的无监督学习方法,能够捕捉复杂高维数据的潜在结构。训练好的深度生成模型可以有效模拟高维数据复杂分布,生成与原始数据相似的合成数据。
[0004]传统的隐私保护数据生成方法采用对用户隐私信息进行移除或匿名化的方式以达到隐私保护的效果,该方法存在着明显的弊端:可通过匿名数据集与其他公开的数据集结合起来,重新识别到用户的隐私保护数据,且该方法随着更多信息被匿名化,会导致数据集的效用降低。
[0005]为此,如何在安全、高效用性的前提下,设计一种用于隐私保护数据生成的方法是目前数据生成领域亟需解决的问题。

技术实现思路

[0006]本专利技术的目的在于提供一种基于生成对抗网络的隐私保护数据生成方法,以解决数据生成领域隐私保护数据样本少、数据效用性低的问题。
[0007]本专利技术的创新之处在于:提出了一种隐私保护数据生成方法,适用于数据生成领域对隐私保护类型数据的生成需求,本方法将成功改进的自编码器应用于生成对抗网络模型中,提升了模型的离散特征学习能力。
[0008]本专利技术的优势在于:与现有的隐私保护数据生成方法相比,本方法能捕捉到复杂的高维数据的基本结构并有效模仿大型高维数据集的分布,保持数据集的完整性和相关性,生成更接近原始数据集的合成数据。
[0009]为实现上述目的,本专利技术采用以下技术方案:一种基于生成对抗网络的隐私保护数据生成方法,用于模拟隐私数据的生成,所述基于生成对抗网络的隐私保护数据生成方法,包括:步骤1、构建前置自编码器;步骤2、构建生成对抗网络模型;步骤3、将自编码器应用于生成对抗网络模型的数据生成。
[0010]其中,所述构建前置自编码器的具体过程为:对自编码器的解码输出层进行修改,
将混合层的数据进行切割输出,在其后放置N+1个并行的属性输出层。
[0011]进一步地,所述构建前置自编码器过程中,自编码器的编码器网络由两层全连接网络NN构成,解码器网络从编码空间获得输入,通过两层全连接网络NN后进入N+1个并行的数据类型分离网络;自编码器通过解码器网络将编码空间数据投影回原始数据空间,完成数据重建。
[0012]其中,构建生成对抗网络模型的具体过程为:生成器学习训练数据的分布,并将输入的随机先验分布转化为和训练数据相似分布的生成样本;鉴别器判断所输入数据集是真实样本还是生成的假样本;训练过程中使生成器与鉴别器互相博弈对抗,直到生成器生成的数据可以骗过鉴别器。
[0013]其中,所述将自编码器应用于生成对抗网络模型的数据生成具体过程为:利用自编码器的解码器将低维连续的编码空间数据投影回原始空间。
[0014]综上所述,本专利技术提供的一种基于生成对抗网络的隐私保护数据生成方法,通过预训练的自编码器将给定数据映射到低维连续空间,通过低维连续空间中的生成器和原始数据空间中的鉴别器进行对抗学习从而获得具有模拟真实数据的生成模型。
附图说明
[0015]图1为本专利技术前置自编码器的工作原理图。
[0016]图2为本专利技术的模型结构图。
[0017]图3为本专利技术方法的流程图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]为了解决数据生成领域隐私保护数据样本少、数据效用性低的问题,参阅图1至图3,本专利技术提供了一种基于生成对抗网络的隐私保护数据生成方法。该方法包括以下步骤:步骤1、构建前置自编码器;步骤2、构建生成对抗网络模型;步骤3、将自编码器应用于生成对抗网络模型的数据生成。
[0020]首先进行数据预定义,设数据的每个记录包含数值和标签两种类型,数据空间定义为S=(W
×
V),其中数值空间W=W1×
W2×
...
×
W
M
(W∈R
M
),定义随机向量x=(x1,x2,...,x
M
)∈W;标签空间V=V1×
V2×
...
×
V
N
,其中V
i
为该属性所具有的所有类别(如性别、职业等),每个标签的类别个数d
i
=|V
i
|,定义随机向量v=(v1,v2,...,v
N
)∈V,对其中每个标签向量v
i
经过One

Hot编码后记为向量于是空间s中的随机变量s可以表示为s=(x,y)=(x1,x2,...,x
M
,y1,y2,...,y
N
),其中
[0021]在本实施例中,构建前置自编码器的过程如下:对自编码器的解码输出层进行修改,将混合层的数据进行切割输出,在其后放置N
+1个并行的属性输出层,并行输出模型保证了单属性的独立性也维持了属性间的相互依赖关系。自编码器的解码器网络将输入的混合数据s=[x1,x2,...,x
M
,y1,y2,...,y
N
]映射到低维连续的编码空间,然后自编码器的解码器网络将编码空间数据投影回原始数据空间,完成数据重建。
[0022]进一步地,如图1所示,编码器网络是由两层全连接网络NN构成,解码器网络从编码空间获得输入,通过两层全连接网络NN后,进入由[Dense0,Dense1,..,Dense
N
]组成的N+1个并列的数据类型分离网络,其中Dense0代表生成多数值向量x=[x1,x2,...,x
M
],经过Sigmoid层激活输出,[Dense0,Dense1,..,Dense
N
]代表生成N个One

Hot编码向量y=[y1,y2,...,y
N
],经过Gumbel

Softmax层激活输出,最终把所有的输出结果拼接在一起得到生成的混合数据
[0023]更进一步地,本实施例中采用Gumble

Softmax的采样技巧来对离散分布本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络的隐私保护数据生成方法,其特征在于,所述的基于生成对抗网络的隐私保护数据生成方法,包括:步骤1、构建前置自编码器;步骤2、构建生成对抗网络模型;步骤3、将自编码器应用于生成对抗网络模型的数据生成。2.根据权利要求1所述的一种基于生成对抗网络的隐私保护数据生成方法,其特征在于,所述构建前置自编码器的过程具体为:对自编码器的解码输出层进行修改,将混合层的数据进行切割输出,在其后放置N+1个并行的属性输出层。3.根据权利要求2所述的一种基于生成对抗网络的隐私保护数据生成方法,其特征在于,构建前置自编码器过程中,自编码器的编码器网络由两层全连接网络NN构成,解码器网络从编码空间获得输入,通过两层全连接网络NN后进入N...

【专利技术属性】
技术研发人员:张越何兴国赖春媚
申请(专利权)人:广州图灵科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1