一种基于隐层增强变分对抗主动学习的软测量建模方法,属于软测量建模技术领域。其包括以下步骤:(1)获取脱丁烷塔数据;(2)脱丁烷塔数据预处理以及数据集划分;(3)筛选有代表性的无标签样本并由专家标注;(4)建立丁烷浓度预测模型;(5)模型表现评估。本发明专利技术采用隐层增强变分对抗主动学习的方法对无标签数据集中的有代表性样本进行人工标注,增加有标注样本的数量,解决样本有限建模困难的问题;该方法可以较少的人工标注成本较大地提升模型的预测性能,具有普遍性和通用性。具有普遍性和通用性。具有普遍性和通用性。
【技术实现步骤摘要】
一种基于隐层增强变分对抗主动学习的软测量建模方法
[0001]本专利技术涉及软测量建模过程标签样本数量有限的情形,特别涉及一种基于隐层增强变分对抗主动学习的软测量建模方法。
技术介绍
[0002]由于无延迟与低成本等优异特性,数据驱动的软测量方法在预测过程工业产品的关键质量变量时发挥着越来越重要的作用。然而,数据驱动建模方法的准确率极度依赖于建模数据的可靠性。相比于容易获得的过程变量数据,关键质量变量因仪器昂贵,实验室分析产生延迟等原因获取困难。因此,只能得到有限的同时拥有过程变量和质量变量的有标签样本和大量的仅有过程变量的无标签样本。仅依赖于有限的标签样本建立的软测量模型是不可靠的且预测效果差。主动学习(Active learning,AL)是一种解决数据短缺问题的有吸引性的方法。该方法从无标签样本中选择有代表性的样本并由专家标注,接着这些样本作为有限标签样本的补充。主动学习的主要目标是在减小标注样本人工成本的同时保持高的软测量模型预测性能。
[0003]根据有代表性无标签样本的获取方式,主动学习可以分为成员查询主动学习、基于流的主动学习和基于池的主动学习。其中基于池的主动学习是目前研究最多、应用范围最广的一类方法。在基于池的主动学习方法中,无标签样本构成一个“样本池”,根据样本选择策略对无标签样本进行信息评估,随后从中选取最有价值的无标签样本进行专家标记。基于池的主动学习方法的查询准则可以被分为三类:不确定性、代表性和不确定性和代表性相结合的准则。其中,基于不确定性的准则筛选标签信息最模糊的无标签样本作为候选标记样本。最近,属于不确定性准则范围的以高斯过程回归(Gaussianprocess regression,GPR)模型的预测方差作为评价指标的主动学习方法在软测量建模领域得到应用。GPR方法给出的方差信息可以提供预测结果的不确定度,从而筛选有代表性的无标签样本。基于代表性的准则从样本的分布特性出发,挑选可以增加标签样本多样性的无标签样本。而两者结合的准则将不确定性和代表性结合到同一个主动学习框架中,查询既具有不确定性又具有代表性的样本。这些可以提高软测量模型性能的主动学习方法多在数据的原始空间进行,对于受维度诅咒影响的高维数据,这些方法似乎是无效的。
[0004]由于大量冗余传感器的安装,工业数据呈现出高度互相关性和冗余性。采用基于原始数据空间的主动学习策略,会造成在未充分挖掘数据特性情况下筛选的无标签样本代表性不足,进一步导致模型性能提升有限。因此,在数据筛选之前提取数据的有用特征是有必要的。
[0005]深度学习技术是机器学习的热门研究领域之一,旨在研究如何从数据中提取多层特征表示。该方法采用一系列的非线性变换,从原始数据中提取由高层到低层、由具体到抽象的特征。其中,变分自编码器(Variational autoencoder,VAE)网络因其强大的隐层特征学习能力和数据生成能力,已越来越多地被应用于过程工业软测量建模中。因此,考虑到软测量建模过程标签样本有限且数据特性冗余的问题,提出一种隐层增强变分对抗主动学习
(Latent
‑
enhanced variational adversarial active learning,LVAAL)的软测量建模方法,在最小化人力标注成本的同时提升软测量模型的预测准确度。
技术实现思路
[0006]为了解决工业过程中具有冗余特性的有限标签样本建立可靠软测量模型困难的问题,本专利技术提出一种隐层增强变分对抗主动学习软测量建模方法。通过主动学习策略筛选有代表性的无标签样本并由专家标注,扩充初始的有限标签样本,在最小化人力标注成本的同时最大化提升模型的预测准确度。
[0007]本专利技术解决其技术问题所采用的技术方案是:
[0008]一种隐层增强变分对抗主动学习的软测量建模方法,包括以下步骤:
[0009](1)获取原始样本数据;
[0010](2)原始样本数据预处理以及数据集划分:将获取的原始样本数据划分为训练集和测试集,其中,训练集包括初始的有标签样本及无标签样本;为加快模型收敛速度,减少模型训练时间,对训练集数据与测试集数据进行归一化处理;
[0011](3)筛选有代表性的无标签样本并由专家标注:基于隐层增强变分对抗主动学习方法的样本筛选策略,从无标签样本中筛选有代表性的样本;随后,无标签样本由专家标注并与训练集中初始的有标签样本组成新的有标签训练集;
[0012](4)建立预测模型:建立预测模型,对建立的预测模型进行训练;
[0013](5)模型表现评估:引入评价指标均方根误差RMSE对模型进行评价。
[0014]进一步的,隐层增强变分对抗主动学习LVAAL样本筛选准则的网络构成为:由一次编码器、解码器和二次编码器组成的隐层增强变分自编码器网络和判别器网络;所述步骤(3)的具体过程如下:
[0015]步骤3.1:学习训练集有标签样本与无标签样本的隐层特征表示:
[0016]通过隐层增强变分自编码器网络学习一个有效的潜在空间,并将训练集有标签样本与无标签样本映射到该空间中,得到对应的潜在特征表示;
[0017]步骤3.2:判别器区分有标签样本与无标签样本:
[0018]当隐层增强变分自编码器网络和判别器网络训练至平衡时,判别器可以有效区分隐层空间中训练集的有标签样本和无标签样本,随后筛选出有代表性的无标签样本并标注。
[0019]进一步的,所述步骤3.1的具体过程如下:
[0020]隐层增强变分自编码器将有标签样本与无标签样本映射到相同的潜在空间,在该空间中,有标签样本的概率分布与无标签样本的概率分布相似;假设原始有标签样本为{X
L
,y
L
},无标签样本为{X
U
};对于隐层增强变分自编码器网络,{X
L
}和{X
U
}经一次编码器映射与解码器重构后分别得到{X
RL
}和{X
RU
};有标签样本和无标签样本的总重构损失函数如下所示:
[0021][0022]其中,x表示原始空间的样本,z表示隐变量,下标L和U分别表示有标签样本和无标
签样本,q
φ
(z|x)和p
θ
(x|z)分别为一次编码器和解码器,参数分别为φ和θ,p
θ
(z)为隐变量的高斯先验分布,表示求期望,D
KL
是概率分布间的KL散度,β是平衡重构误差与KL散度在优化目标中所占比例的参数;
[0023]二次编码器用于限制隐层空间不发生偏移,以帮助隐层增强变分对抗主动学习LVAAL网络学习到最优的隐层空间;其网络结构与参数与一次编码器相同;采用KL散度度量一次编码特征与二次编码特征间的距离,KL散度的表达式为:
[0024][0025]其中,N(
·
)表示高斯分布,μ和σ2分别为经一次编码器得到的潜层变量高斯分布的均值和方差,和分本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种隐层增强变分对抗主动学习的软测量建模方法,其特征在于,包括以下步骤:(1)获取原始样本数据;(2)原始样本数据预处理以及数据集划分:将获取的原始样本数据划分为训练集和测试集,其中,训练集包括初始的有标签样本及无标签样本;为加快模型收敛速度,减少模型训练时间,对训练集数据与测试集数据进行归一化处理;(3)筛选有代表性的无标签样本并由专家标注:基于隐层增强变分对抗主动学习方法的样本筛选策略,从无标签样本中筛选有代表性的样本;随后,无标签样本由专家标注并与训练集中初始的有标签样本组成新的有标签训练集;(4)建立预测模型:建立预测模型,对建立的预测模型进行训练;(5)模型表现评估:引入评价指标均方根误差RMSE对模型进行评价。2.如权利要求1所述的一种隐层增强变分对抗主动学习的软测量建模方法,其特征在于,隐层增强变分对抗主动学习LVAAL样本筛选准则的网络构成为:由一次编码器、解码器和二次编码器组成的隐层增强变分自编码器网络和判别器网络;所述步骤(3)的具体过程如下:步骤3.1:学习训练集有标签样本与无标签样本的隐层特征表示:通过隐层增强变分自编码器网络学习一个有效的潜在空间,并将训练集有标签样本与无标签样本映射到该空间中,得到对应的潜在特征表示;步骤3.2:判别器区分有标签样本与无标签样本:当隐层增强变分自编码器网络和判别器网络训练至平衡时,判别器可以有效区分隐层空间中训练集的有标签样本和无标签样本,随后筛选出有代表性的无标签样本并标注。3.如权利要求2所述的一种隐层增强变分对抗主动学习的软测量建模方法,其特征在于,所述步骤3.1的具体过程如下:隐层增强变分自编码器将有标签样本与无标签样本映射到相同的潜在空间;假设原始有标签样本为{X
L
,y
L
},无标签样本为{X
U
};对于隐层增强变分自编码器网络,{X
L
}和{X
U
}经一次编码器映射与解码器重构后分别得到{X
RL
}和{X
RU
};有标签样本和无标签样本的总重构损失函数如下所示:其中,x表示原始空间的样本,z表示隐变量,下标L和U分别表示有标签样本和无标签样本,q
φ
(z|x)和p
θ
(x|z)分别为一次编码器和解码器,参数分别为φ和θ,p
θ
(z)为隐变量的高斯先验分布,表示求期望,D
KL
是概率分布间的KL散度,β是平衡重构误差与KL散度在优化目标中所占比例的参数;二次编码器用于限制隐层空间不发生偏移,以帮助隐层增强变分对抗主动学习LVAAL网络学习到最优的隐层空间;其网络结构与参数与一次编码器相同;采用KL散度度量一次编码特征与二次编码特征间的距离,...
【专利技术属性】
技术研发人员:刘毅,戴云,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。