【技术实现步骤摘要】
一种基于双重条件生成对抗网络的缺失数据填补生成方法
[0001]本专利技术涉及一种基于双重条件生成对抗网络的缺失数据填补生成方法,属于计算机中数据感知与重构领域。
技术介绍
[0002]近年来,在机器学习中,生成对抗网络模型因其在不同领域的适用性而变得越来越重要和流行。它们表示复杂、高维的数据的能力可用于处理图像、视频、表格数据等其他学术领域。在数字金融等领域中,表格数据的生成是研究人员所关注的核心问题。给定一组随机噪声,生成对抗网络模型便能够生成相应的表格数据。
[0003]在真实的应用场景中,往往需要输出给定条件下的表格数据,且表格数据通常存在缺失的情况。鉴于表格数据的特殊性,其编码过程以及条件的设计存在一定的挑战。因此,设计一种能够有效对表格数据进行编码且解决数据缺失问题的生成对抗网络模型是非常有必要的。
[0004]条件生成对抗网络(Conditional Generative Adversarial Networks)无疑是最具有代表性的条件生成对抗网络模型。基于CGAN改进的CTGAN对表格类数据 ...
【技术保护点】
【技术特征摘要】
1.一种基于双重条件生成对抗网络的缺失数据填补生成方法,其特征在于:包括以下步骤:S1:对表格类样本数据进行编码,设计作为数据生成条件的样本类别和样本已存在数据的在生成过程中的表示方式;S2:构建双重条件生成对抗网络的结构,其中包括生成模型、判别模型;S3:对双重条件生成对抗网络结构的目标优化函数进行表示;S4:建立数据生成模型的训练数据集,对双重条件生成对抗网络进行训练;S5:分析不同的数据缺失情况,采用训练好的双重条件生成对抗网络进行缺失数据生成填补,以构建可用于其他机器学习模型训练的高质量表格类数据训练集。2.根据权利要求1所述的基于双重条件生成对抗网络的缺失数据填补生成方法,其特征在于:步骤S1中,对真实样本数据进行编码,具体包括以下步骤:S11:进行数据标准化和数据编码;通过one
‑
hot编码方式对类别数据进行编码;对数值型或混合型数据的编码方式如下:假设一个表格类数据集中的真实样本数据X
i
有n个数值类型和混合型变量,另有e个类别型变量,总计n+e=N个变量,则该样本数据的编码,由标量α
i,j
、β
i,j
以及其他类别型数据的one
‑
hot向量d
i,e
拼接而成,即:其中,表示向量拼接,最终经过编码后的X
i
的维度为u;α
i,j
为VGM编码值,表示从给定的概率密度函数中采样一种VGM模态,并使用采样模态对第i个样本的第j列C
i,j
进行标准化和归一化;如果采样模态为ρ
q
,则将第q个模态下的C
i,j
表示为一个标量α
i,j
和one
‑
hot向量β
i,j
,β
i,j
=[h1,...,h
q
,...,h
k
],其中h1,...,h
q
,...,h
k
分别表示one
‑
hot向量的第1~k个元素,h
q
=1,其它值取0;标量α
i,j
的标准化和归一化的过程如下:设第i个样本经VGM编码后得到k个模态,即ρ1,ρ2,...,ρ
k
,学习到的高斯混合模型为其中表示高斯模型的概率密度函数,ω
q
、η
q
和σ
q
分别表示一个模态的权重、均值和标准差,q=1,...,k;对于第i个样本的第j列C
i,j
,计算该值在每个模态中的概率,概率密度分别为ρ1,ρ2,...,ρ
k
,从给定的概率密度函数中采样一种模态,并使用该模态对C
i,j
进行标准化;若采样结果为ρ
q
,则将第q个模态下的C
i,j
表示为一个标量α
i,j
:S12:条件向量和掩码向量以样本类别标签作为建模的其中一个条件,其条件向量cond是一个位向量,由样本类别标签所生成的one
‑
hot编码构成,其中所选标签值label=1,则条件向量表示为cond=[0,0,...,label,...,0,0];掩码向量M=[M1,...,M
d
,...,M
N
],d=1...N
*
,当M
d
=0时,代表该位置的数据缺失;当M
d
=1时,代表数据完整;M中元素值1的维度为||M||1,而元素值0的维度为||1
‑
M||1;M
d
中所有元素都为0时表示只以样本类别作为条件;给定真实样本数据的编码向量X,模拟不同情况的缺失样本数据向量X
miss
:也即,X
miss
⊙
M=X
⊙
M,其中
⊙
表示向量间的元素级乘法。3.根据权利要求1所述的基于双重条件生成对抗网络的缺失数据填补生成方法,其特征在于:步骤S2中所述生成模型由两个残差网络和一个全连接层组成,其输入部分包括输入数据和条件向量,且输入数据由噪声进行填充,其工作流程及详细结构如下:S21:对噪声样本Z进行编码,并用编码后的结果对缺失样本数据进行填充,最终得到Z
′
,其过程表示为Z
′
=M
⊙
X
miss
+(1
‑
M)
⊙
Z;S22:用H0表示的结果并作为初始输入,即其中每个的维度为|cond|+|Z
′
i
|,i=1...m;S23:H0首先通过第一个残差网络,将其维度从|cond|+|Z
′
i
|扩充为|Cond|+|Z
′
i
|+256,用H1表示输出结果;S24:H1再通过第二个残差网络,将其维度从|cond|+|Z
′
i
|+256扩充为|cond|+|Z
′
i
|+512,输出用H2表示;S25:将H2输入到最后一层全连接网络中,首先通过tanh激活函数将输入向量转换为标量α
i,j
;再分别通过两个gumbel softmax激活函数得到连续数据的编码向量β
i,j
以及离散数据的的编码向量d
i,e
,其中gumbel softmax激活函数用于将输入转化one
‑
hot向量;S26:将α
i,j
、β
i,j
、d
i,e
进行拼接并得到生成模型最终生成的结果,用进行表示,即进行表示,即S27:将生成数据缺失数据X
miss
与掩码向量M做元素级乘法得到判别模型的输入数据,用X
imp
进行表示,即且4.根据权利要求1所述的基于双重条件生成对抗网络的缺失数据填补生成方法,其特征在于:步骤S2中所述判别模型由三个全连接网络构成,其工作流程及详细结构如下:S28:将编码后的真实样本X、X
imp
与条件向量cond分别进行拼接,结果分别用K0和表示,即K0和的维度分别为|X
imp
|+|cond|和|X|+|cond|;S29:再将K0和分别输入到第一层全连接网络中,所述第一层全连接网络包含一个Leaky ReLU激活函数,对第一层全连接网络进行dropout...
【专利技术属性】
技术研发人员:钱鹰,戴思聪,刘歆,万邦睿,黄江平,王毅峰,韦庆杰,王奕琀,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。