【技术实现步骤摘要】
一种数据生成方法、装置、设备及存储介质
本专利技术实施例涉及机器学习技术,尤其涉及一种数据生成方法、装置、设备及存储介质。
技术介绍
随着机器学习的兴起,神经网络作为一种有效的处理数据的工具,在学术界与商业中被大量地使用。深度学习可以归结于两条定律:一是流形分布定律,即自然界中同一类别的高维数据,往往集中在某个低维流形附近;二是聚类分布定律,即这个高维数据类别中不同的子类数据对应着流形上的不同概率分布,这些分布之间的距离大到足够将这些子类区分。因此,深度学习的基本任务就在于从数据中学习流形结构,建立流形的参数表达和变换概率分布。具体可参见《计算机辅助几何设计(ComputerAidedGeometricDesign)》于2019年1月,68卷第1-21页(Volume68,January2019,Pages1-21)发表的论文《最优传输及生成模型的几何视图(Ageometricviewofoptimaltransportationandgenerativemodel)》,作者雷娜,苏科华,..,丘成桐,顾险峰(NaL ...
【技术保护点】
1.一种数据生成方法,其特征在于,包括:/n确定第一数据集合中各第一数据在空间凸区域中的维诺权重;/n根据各所述第一数据的维诺权重,对所述第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在所述第一数据集合的数据分布和所述第二数据集合的数据分布满足的映射关系中,所述目标映射关系的传输代价最小;/n基于所述目标映射关系和各所述第一数据的维诺权重,生成符合所述第二数据集合数据分布的伪数据。/n
【技术特征摘要】
1.一种数据生成方法,其特征在于,包括:
确定第一数据集合中各第一数据在空间凸区域中的维诺权重;
根据各所述第一数据的维诺权重,对所述第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在所述第一数据集合的数据分布和所述第二数据集合的数据分布满足的映射关系中,所述目标映射关系的传输代价最小;
基于所述目标映射关系和各所述第一数据的维诺权重,生成符合所述第二数据集合数据分布的伪数据。
2.根据权利要求1所述的数据生成方法,其特征在于,所述确定第一数据集合中各第一数据在空间凸区域中的维诺权重,包括:
获取包含第一数据的第一数据集合,将包括所有第一数据的最小凸区域确定为空间凸区域;
基于各所述第一数据的数据分布,构造所述空间凸区域的维诺图,所述维诺图中的维诺胞腔与所述第一数据集合中的第一数据一一对应;
确定各所述第一数据所在维诺胞腔的第一胞腔相对体积,并根据各所述第一胞腔相对体积确定各所述第一数据的维诺权重。
3.根据权利要求1所述的数据生成方法,其特征在于,所述确定各所述第一数据所在维诺胞腔的第一胞腔相对体积,并根据各所述第一胞腔相对体积确定各所述第一数据的维诺权重,包括:
在所述空间凸区域中均匀采样,得到第一总采样点数;
确定各所述维诺胞腔中的第一胞腔采样点数,将所述第一胞腔采样点数与第一总采样点数之比确定为所述维诺胞腔的第一胞腔相对体积;
取所述第一胞腔相对体积的倒数作为所述维诺胞腔内包含的第一数据的维诺权重。
4.根据权利要求2所述的数据生成方法,其特征在于,所述根据各所述第一数据的维诺权重,对所述第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,包括:
依据初始映射关系,在所述空间凸区域中形成第二数据集合对应的胞腔分解图,所述胞腔分解图中的投影胞腔与所述第二数据集合中的第二数据一一对应;
根据所述胞腔分解图的胞腔分布和所述维诺图的胞腔分布,结合各所述维诺胞腔对应的维诺权重,确定各所述投影胞腔的第二胞腔相对体积;
根据各所述第二胞腔相对体积与相应第二数据的目标体积,对所述初始映射关系进行调整,并返回重新形成所述第二数据集合的胞腔分解图,直至各所述第二胞腔相对体积与对应的目标体积相差均小于预设阈值;
将最终调整得到的初始映射关系确定为目标映射关系。
5.根据权利要求4所述的数据生成方法,其特征在于,所述依据初始映射关系,在所述空间凸区域中形成第二数据集合对应的胞腔分解图,包括:
针对第二数据集合中的每个第二数据,根据初始映射关系,构造在所述空间凸区域的高维空间中对应的超平面;
将所有超平面的上包络构成的凸包映射至所述空间凸区域,形成胞腔分解图。
6.根据权利要求4所述的数据生成方法,其特征在于,所述根据所述胞腔分解...
【专利技术属性】
技术研发人员:柯景耀,潘征,潘燕峰,刘岚,
申请(专利权)人:上海熵熵微电子科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。