一种基于动态曲面分割的非对抗生成自编码方法及系统技术方案

技术编号:28560489 阅读:23 留言:0更新日期:2021-05-25 17:55
本发明专利技术公开一种基于动态曲面分割的非对抗生成自编码方法及系统,涉及数据生成技术领域,方法包括:获取训练数据集;使用编码器将训练数据集降维到低维空间,得到第一低维向量集;使用中心维罗内分割将低维空间的单位球划分为多个区域;使用最小损失匹配算法确定第一低维向量集中每个低维向量隶属的区域;逐个区域计算第一分布距离;以最小化第一分布距离为目标,优化编码器;利用优化后的编码器将训练数据集降维到低维空间,得到第二低维向量集;利用第二低维向量集对解码器进行训练和优化,得到优化后的解码器;获取已有数据;将已有数据输入优化后的解码器进行解码,生成新数据。本发明专利技术能够提高非对抗自编码的数据生成质量。

【技术实现步骤摘要】
一种基于动态曲面分割的非对抗生成自编码方法及系统
本专利技术涉及数据生成
,特别是涉及一种基于动态曲面分割的非对抗生成自编码方法及系统。
技术介绍
目前大数据算法依赖于海量的数据。但对于特定的问题,数据的获取有时可能十分昂贵。因此,基于已有数据生成新数据成为工业界的极大需求。现实中数据的采集与标注往往要付出很大的成本,且某些特定的数据难以获取得到,因此从原有数据中生成新的数据在工业上有很大的需求和应用。现有的数据生成方案分为对抗和非对抗两种技术路线,其中对抗生成自编码数据生成质量高,但不够稳定,难以训练,需要大量调参。另外,由于对抗自编码使用黑箱计算分布距离,难以解释模型记住了什么信息,忘记了哪些信息。因此对抗自编码虽然效果好,但是使用起来不方便。而非对抗自编码能够解决对抗自编码使用不方便的问题,非对抗自编码虽然易于使用,但效果不好,非对抗自编码由于无法使用过量的参数去计算分布之间的距离,导致距离计算不准确,进而造成数据生成质量较低。因此,如何使非对抗自编码在保留其稳定、易于训练的优点的同时,能够具有对抗自编码的生成能力甚至比对抗本文档来自技高网...

【技术保护点】
1.一种基于动态曲面分割的非对抗生成自编码方法,其特征在于,所述方法包括:/n获取训练数据集;所述训练数据集包括Mnist数据集和CelebA数据集中的任意一种;/n使用编码器将所述训练数据集降维到低维空间,得到第一低维向量集;/n使用中心维罗内分割将所述低维空间的单位球划分为多个区域;/n使用最小损失匹配算法确定所述第一低维向量集中每个低维向量隶属的所述区域;/n逐个区域计算第一分布距离;所述第一分布距离为隶属所述区域的所有所述低维向量组成的经验分布与所述区域上的均匀分布的距离;/n以最小化所述第一分布距离为目标,优化所述编码器;/n利用优化后的所述编码器将所述训练数据集降维到低维空间,得到...

【技术特征摘要】
1.一种基于动态曲面分割的非对抗生成自编码方法,其特征在于,所述方法包括:
获取训练数据集;所述训练数据集包括Mnist数据集和CelebA数据集中的任意一种;
使用编码器将所述训练数据集降维到低维空间,得到第一低维向量集;
使用中心维罗内分割将所述低维空间的单位球划分为多个区域;
使用最小损失匹配算法确定所述第一低维向量集中每个低维向量隶属的所述区域;
逐个区域计算第一分布距离;所述第一分布距离为隶属所述区域的所有所述低维向量组成的经验分布与所述区域上的均匀分布的距离;
以最小化所述第一分布距离为目标,优化所述编码器;
利用优化后的所述编码器将所述训练数据集降维到低维空间,得到第二低维向量集;
利用所述第二低维向量集对解码器进行训练和优化,得到优化后的解码器;
获取已有数据;所述已有数据为低维向量;
将所述已有数据输入所述优化后的解码器进行解码,生成新数据;所述新数据为图片或高维数据。


2.根据权利要求1所述的基于动态曲面分割的非对抗生成自编码方法,其特征在于,所述使用编码器将所述训练数据集降维到低维空间,得到第一低维向量集,具体包括:
当所述训练数据集为Mnist数据集时,使用编码器将所述训练数据集中每个Mnist数据均降维到8维空间,得到第一低维向量集;此时,所述第一低维向量集包括多个8维向量;
当所述训练数据集为CelebA数据集时,使用编码器将所述训练数据集中每个CelebA数据均降维到64维空间,得到第一低维向量集;此时,所述第一低维向量集包括多个64维向量。


3.根据权利要求2所述的基于动态曲面分割的非对抗生成自编码方法,其特征在于,所述使用中心维罗内分割将所述低维空间的单位球划分为多个区域,具体包括:
当所述低维空间为8维空间时,使用中心维罗内分割将所述8维空间的单位球划分为200个区域;
当所述低维空间为64维空间时,使用中心维罗内分割将所述64维空间的单位球划分为200个区域。


4.根据权利要求1所述的基于动态曲面分割的非对抗生成自编码方法,其特征在于,所述逐个区域计算第一分布距离,具体包括:
根据公式计算隶属同一区域的所有低维向量z组成的经验分布Q(z);其中,N表示隶属同一区域的所有低维向量z的总个数,zi表示第i个低维向量,表示狄拉克函数,当z=zi时,当z≠zi时,
根据公式计算第j个区域Ωj上的均匀分布P(z)的概率密度函数d(z);其中,1≤j≤200,表示特征函数,当z隶属于Ωj时,当z不隶属于Ωj时,
对d(z)进行积分得到P(z);
根据公式D(P(z)||Q(z))计算第一分布距离;其中,D(*||*)是一种计算分布距离的函数。


5.根据权利要求1所述的基于动态曲面分割的非对抗生成自编码方法,其特征在于,所述以最小化所述第一分布距离为目标,优化所述编码器,具体包括:
使用分片沃瑟斯坦度量和正则项最小化所述第一分布距离,优化所述编码器。


6.根据权利要求1所述的基于动态曲面分割的非对抗生成自编码方法,其特征在于,所述利用所述第二低维向量集对解码器进行训练和优化,得到优化后的解码器,具体包括:
将所述第二低维向量集输入解码器中,得到生成数据集;所述生成数据集中的数据与所述训练数据集中的数据一一对应;
根据公式计算所述生成数据集与所述训练数据集之间的欧式距离;其中,x表示所述训练数据集中...

【专利技术属性】
技术研发人员:盖阔付云骁张彪翟鹏龙肖鹏任西兵
申请(专利权)人:北京闭环科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1