一种虚拟样本生成方法技术

技术编号:12329857 阅读:371 留言:0更新日期:2015-11-16 00:39
本发明专利技术公开了一种虚拟样本生成方法,本发明专利技术首先采用信号采集及相应装置等手段获取数量有限的高维真实样本,接着采用偏最小二乘(PLS)算法、遗传算法(GA)、误差逆传播神经网络(BPNN)算法构建基于可行性的规划(FBP)模型;然后基于已知的真实样本的先验知识产生虚拟样本的输入;接着将PLS提取的虚拟样本潜在特征输入FBP并基于先验知识获得虚拟样本输出;最后将符合预设定规则的虚拟样本的输入向量和输出向量组合后获得完整的虚拟样本。由此,实现了较为准确地生成可用于高维数据预测的虚拟样本。

【技术实现步骤摘要】

本专利技术涉及机器学习
,具体涉及一种虚拟样本生成方法
技术介绍
基于大数据的机器学习技术已经广泛和成功地应用于很多不同的行业。对于许多稀有疾病的医疗记录和柔性制造系统的早期阶段,只有少量的训练样本能够用于构造预测模型。对于复杂的流程工业过程,为实现其优化控制和运行优化,必需对关键机械设备的难以检测过程参数进行测量或预测,如磨矿过程磨机内部负荷参数难以直接检测和采用机理模型直接计算得到,主要采用基于磨机筒体的振动和振声信号高维频谱数据的软测量方法进行。但有效的建模数据只能在两个阶段获得:(1)专门为软测量模型构建进行的实验设计阶段;(2)磨机的停止运行和重新开始运行阶段。在实际工业过程中,以牺牲经济利益为代价或经过很长的等待时间后,也许可以获得足够数量的可用的训练样本。在稀有疾病的医疗记录和柔性制造系统的早期阶段同样存在类似的难以获得足够建模样本的问题。因此,现实情况是我们必须进行面向高维小样本数据的建模研究。研究表明,足够的样本数量对于构建有效的学习模型非常重要。目前已有的大量的研究多面向分类问题,如文献[1]研究了分类误差、学习样本数量、样本输入维数和分类算法复杂性间的相互关系。为了确定获得必要的预测性能而需要的最小样本的数量,研究人员提出了概率近似正确、训练样本与输入特征比率等指标[2,3]。目前,关于小样本数据的定义也是非常相对和主观的。现有技术提出了一种新的巨型趋势分散(MTD)技术用于解决早期柔性制造系统的计划调度问题,主要采用虚拟样本生成(VirtualSampleGeneration,VSG)技术提高误差逆传播神经网络(BPNN)模型的分类精度。目前,已有多种类型的VSG方法,如利用领域专家知识、将噪声加入输入数据、利用原始样本的分布函数等。这些研究多面向基于高维小样本数据的分类问题。对于用于回归问题的虚拟样本生成,文献[4]提出基于多层感知器网络的VSG方法用于提高学习模型的泛化性能,其中:虚拟样本的输入通过选择真实样本输入的附近点产生,虚拟样本的输出通过平衡不同多层感知器网络输出数据获得。文献[5]提出用分散神经网络(DNN)产生虚拟样本和建模小数据集,仿真结果表明DNN比BPNN具有更强的预测性能。这些方法通常都是单独处理训练样本的输入特征。最近,文献[6]提出的基于遗传算法(GA)的VSG方法可以描述不同输入特征间的积分效应。上述方法采用传统的单模型产生虚拟样本。对于具有复杂分布的建模数据或高维小样本训练数据,传统的单模型建模方法难以进行有效的模式识别或回归建模。【1】S.J.Raudys,A.K.Jain,“SmallSampleSizeEffectsinStatisticalPatternRecognition:RecommendationsforPractitioners,”IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.13,no.3,pp.252-265,1991.【2】J.Shawe-Taylor,M.Anthony,andN.L.Biggs,“BoundingSampleSizewiththeVapnik-ChervonenkisDimension,”DiscreteAppliedMath.,vol.42,pp.65-73,1993.【3】Y.MutoandY.Hamamoto,“ImprovementoftheParzenClassifierinSmallTrainingSampleSizeSituations,”IntelligentDataAnalysis,vol.5,no.6,pp.477-490,2001.【4】S.Z.Cho,M.Jang,S.J.Chang.Virtualsamplegenerationusingapopulationofnetworks,neuralprocessingletters,vol.5,pp.83-89,1997.【5】C.F.HuangandC.Moraga,“ADiffusion-Neural-NetworkforLearningfromSmallSamples,”Int’lJ.ApproximateReasoning,vol.35,pp.137-161,2004.【6】D.C.Li,I.H.Wen,”Ageneticalgorithm-basedvirtualsamplegenerationtechniquetoimprovesmalldatasetlearning,”Neurocomputing,vol.143,pp.222-230,2014.
技术实现思路
有鉴于此,本专利技术提供一种虚拟样本生成方法,以解决高维小样本的样本数量不足的问题。本专利技术实施例提供一种虚拟样本生成方法,用于基于多个真实样本生成虚拟样本,所述方法包括:S100、提取所述真实样本的输入向量的潜在特征,并获取潜在特征提取模型;S200、根据所述潜在特征和对应的输出向量训练获取预测性能满足预定条件的预测模型,所述预测模型用于根据输入向量的潜在特征计算对应的输出向量;S300、在所有可插值的真实样本对之间进行插值生成虚拟样本的备选输入向量,所述可插值的真实样本对为对应的输入向量或输入向量的相关向量中预定数量的元素相同的两个真实样本;S400、根据所述潜在特征提取模型提取所述备选输入向量的潜在特征;S500、根据所述预测模型和所述备选输入向量的潜在特征计算对应的备选输出向量,并保留符合虚拟样本筛选条件的备选输出向量和对应的备选输入向量以获取所述多个真实样本对应的虚拟样本集合。进一步地,所述步骤S100包括:以最大化输入向量和输出向量之间的协方差为目标,基于偏最小二乘算法提取所述真实样本的输入向量的潜在特征。进一步地,所述步骤S200包括:S210、将所述真实样本的输入向量的潜在特征及对应的输出向量作为训练数据集;S220、通过Bootstrap算法从所述训练数据集产生多个训练子样本;S230、基于BPNN根据所述多个训练子样本构建多个候选子模型;S240、根据训练数据集选取对应的模型选择权重参数大于模型选择阈值的所有候选子模型构成集成模型,其中,模型选择权重参数通过对随机生成的初始权重参数以最小化预测误差为目标经过遗传算法优化获得;S250、基于训练数据集计算集成模型中所有子模本文档来自技高网
...

【技术保护点】
一种虚拟样本生成方法,用于基于多个真实样本生成虚拟样本,所述方法包括:S100、提取所述真实样本的输入向量的潜在特征,并获取潜在特征提取模型;S200、根据所述潜在特征和对应的输出向量训练获取预测性能满足预定条件的预测模型,所述预测模型用于根据输入向量的潜在特征计算对应的输出向量;S300、在所有可插值的真实样本对之间进行插值生成虚拟样本的备选输入向量,所述可插值的真实样本对为对应的输入向量或输入向量的相关向量中预定数量的元素相同的两个真实样本;S400、根据所述潜在特征提取模型提取所述备选输入向量的潜在特征;S500、根据所述预测模型和所述备选输入向量的潜在特征计算对应的备选输出向量,并保留符合虚拟样本筛选条件的备选输出向量和对应的备选输入向量以获取所述多个真实样本对应的虚拟样本集合。

【技术特征摘要】
1.一种虚拟样本生成方法,用于基于多个真实样本生成虚拟样本,
所述方法包括:
S100、提取所述真实样本的输入向量的潜在特征,并获取潜在特征
提取模型;
S200、根据所述潜在特征和对应的输出向量训练获取预测性能满足
预定条件的预测模型,所述预测模型用于根据输入向量的潜在特征计算
对应的输出向量;
S300、在所有可插值的真实样本对之间进行插值生成虚拟样本的备
选输入向量,所述可插值的真实样本对为对应的输入向量或输入向量的
相关向量中预定数量的元素相同的两个真实样本;
S400、根据所述潜在特征提取模型提取所述备选输入向量的潜在特
征;
S500、根据所述预测模型和所述备选输入向量的潜在特征计算对应
的备选输出向量,并保留符合虚拟样本筛选条件的备选输出向量和对应
的备选输入向量以获取所述多个真实样本对应的虚拟样本集合。
2.根据权利要求1所述的虚拟样本生成方法,其特征在于,所述
步骤S100包括:
以最大化输入向量和输出向量之间的协方差为目标,基于偏最小二
乘算法提取所述真实样本的输入向量的潜在特征。
3.根据权利要求2所述的虚拟样本生成方法,其特征在于,所述
步骤S200包括:
S210、将所述真实样本的输入向量的潜在特征及对应的输出向量作
为训练数据集;
S220、通过Bootstrap算法从所述训练数据集产生多个训练子样本;
S230、基于BPNN算法根据所述多个训练子样本构建多个候选子模
型;
S240、根据所述训练数据集选取对应的模型选择权重参数大于模型
选择阈值的所有候选子模型构成集成模型,其中,模型选择权重参数通

\t过对随机生成的初始权重参数以最小化预测误差为目标进行遗传算法优
化获得;
S250、基于训练数据集计算集成模型中所有子模型输出向量之和的
均值作为集成模型的预测输出向量,并基...

【专利技术属性】
技术研发人员:汤健孙春来毛克峰贾美英李东李立国胡亚男
申请(专利权)人:中国人民解放军六一五九九部队计算所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1