【技术实现步骤摘要】
基于连续混合潜在分布模型的数据生成方法及装置
本申请实施例涉及一种基于连续混合潜在分布模型的数据生成方法及装置。
技术介绍
生成模型是概率统计和机器学习中的一类重要模型,可以直接对采样数据建模,用于随机生成可观测数据。生成模型可以用于全监督、半监督和无监督学习。在监督学习任务中,根据贝叶斯公式由联合概率分布P(X,Y)可求出条件概率分布P(Y|X),从而得到预测模型。典型的生成模型包括混合高斯模型、隐马尔可夫模型、朴素贝叶斯、隐狄利克雷分配模型、受限玻尔兹曼机和深度生成模型等。深度生成模型是一种利用深层神经网络近似复杂数据分布的生成模型,其在无监督和半监督深度学习方面占据主要位置,在无标注或弱标注情况下可以捕捉观测或可见数据的高阶相关性,从而学习原始数据的复杂分布形式。生成对抗网络是一种典型的深度生成模型,自2014年Goodfellow等人首次提出以来,生成对抗网络(GAN)经历了爆炸性的发展。GAN是以随机变量作为输入,通过对抗训练过程估计生成模型的一种新框架。通过模仿生成网络和判别网络之间的对抗过程,GAN可以 ...
【技术保护点】
1.一种基于连续混合潜在分布模型的数据生成方法,其特征在于,所述方法包括:/n获取待训练数据的属性信息,收集与待训练数据的属性信息相同或相关的数据,对所收集的数据进行预处理,生成训练数据集;/n构建从噪声空间到数据空间的随机数据生成SDG网络;/n构建判别网络,将SDG网络的生成数据和训练数据集中数据分别作为判别网络的输入,判断数据的真假;/n利用获取的真数据和生成的伪数据对判别网络和SDG网络进行博弈训练,生成与训练数据集中的数据相似度达到第一阈值、多样性达到第二阈值的数据,将训练后的SDG网络作为SDG网络模型;/n将随机噪声输入到经过博弈训练的SDG网络模型中,生成目标数据。/n
【技术特征摘要】
1.一种基于连续混合潜在分布模型的数据生成方法,其特征在于,所述方法包括:
获取待训练数据的属性信息,收集与待训练数据的属性信息相同或相关的数据,对所收集的数据进行预处理,生成训练数据集;
构建从噪声空间到数据空间的随机数据生成SDG网络;
构建判别网络,将SDG网络的生成数据和训练数据集中数据分别作为判别网络的输入,判断数据的真假;
利用获取的真数据和生成的伪数据对判别网络和SDG网络进行博弈训练,生成与训练数据集中的数据相似度达到第一阈值、多样性达到第二阈值的数据,将训练后的SDG网络作为SDG网络模型;
将随机噪声输入到经过博弈训练的SDG网络模型中,生成目标数据。
2.根据权利要求1所述的方法,其特征在于,所述SDG网络为从潜在分布到数据分布的随机数据生成网络,是将随机性引入到传统生成网络的前馈过程中,将潜在分布变成连续混合潜在分布。
3.根据权利要求1或2所述的方法,其特征在于,所述构建从噪声空间到数据空间的随机数据生成SDG网络,包括:
在神经网络层与层之间的条件概率分布上施加先验分布假设,通过随机前馈过程将噪声空间的潜在分布转换为连续混合潜在分布;
通过重参数化处理,对连续混合潜在分布进行重采样,基于误差反向传播对分布参数进行更新;
确定随机权重θSDG所服从分布的最优参数,获得训练目标如下:
其中,E表示对相应变量计算数学期望,z~pz是输入的随机变量,θSDG是随机数据生成网络参数,服从分布pθ(α),α为分布参数;L(SDG(z;θSDG))为所述SDG网络的损失函数,所述损失函数如下:
L(SDG(z;θSDG))=-log[D(SDG(z;θSDG))]。
4.根据权利要求3所述的方法,其特征在于,所述构建判别网络,包括:
构建判别损失函数,设计判别网络;判别损失函数LossD如下:
其中,z~pz为输入的随机变量,x~pdata为训练数据集中的训练数据,θD为判别网络参数。
5.根据权利要求1所述的方法,其特征在于,所述利用获取的真数据和生成的伪数据对判别网络和SDG网络进行博弈训练,包括:
基于连续混合潜在分布的数据生成方法总目标函数为:
6.根据权利要求1所述的方法,其特征在于,所述博弈训练,包括:
训练所述判别网络来最大化其分辨真实样本和生成样本的能力;
训练SDG网络来最小化生成样本与训练样本之间的距离log[1-D(G(z;θG))],即最大化其生成样本被判别为真实样本的概率;
重复判别网络及SDG网络的训练,直到达到指定训练...
【专利技术属性】
技术研发人员:刘雪娇,向雪霜,徐遥,
申请(专利权)人:中国空间技术研究院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。