当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于双优选半监督回归算法的模型预测方法技术

技术编号:19321374 阅读:29 留言:0更新日期:2018-11-03 11:23
本发明专利技术公开了一种基于双优选半监督回归算法的模型预测方法,属于半监督回归领域。通过一种双优选的策略,求出有标签样本密集区中心,并根据无标签样本与密集区中心的相似度筛选无标签样本,同时根据有标签样本间相似度筛选有标签样本;然后利用高斯过程回归方法对选出的有标签样本建立辅学习器,以对选出的无标签样本预测标签;最后利用这些伪标签样本提升主学习器的预测效果,解决了在标签样本很少时,无法保证对无标签样本利用的质量从而无法实现准确预测的问题,达到了利用很少的标签样本即可实现准确预测的效果。

A model predictive method based on double optimal semi supervised regression algorithm

The invention discloses a model prediction method based on double optimal semi-supervised regression algorithm, which belongs to the field of semi-supervised regression. Through a double-optimization strategy, the labeled sample dense area center is obtained, and the labeled samples are screened according to the similarity between the labeled samples and the center of the dense area. At the same time, the labeled samples are screened according to the similarity between the labeled samples. Then, the auxiliary learner is established by using the Gauss process regression method for the selected labeled samples. Finally, these pseudo-labeled samples are used to improve the prediction effect of the master learner, which solves the problem that the quality of the labeled samples can not be guaranteed when the labeled samples are few, and thus the accurate prediction can not be achieved by using a few labeled samples. The effect.

【技术实现步骤摘要】
一种基于双优选半监督回归算法的模型预测方法
本专利技术涉及一种基于双优选半监督回归算法的模型预测方法,属于半监督回归领域。
技术介绍
化工、冶金和发酵等工业过程中的一些重要质量变量,往往无法通过在线仪表测量,而通过实验室离线分析的方式又存在严重的滞后,因此需要通过一些能够直接测得的样本数据来对这些重要质量变量进行预测。而随着科技的发展,尤其是工业大数据技术的发展,无标签样本越来越易大量获得,而有标签样本获取代价依然很大,导致在某些工业过程中有标签样本很少,传统的建模方法在这种情况下难以保证模型的预测效果。为了解决这些问题,研究利用少量有标签样本和大量无标签样本来提高学习性能的半监督学习受到了密切关注。目前,半监督聚类与半监督分类方面的研究很多,半监督回归方面的研究却很少。半监督回归已有的方法如利用流行学习的半监督回归算法、协同训练算法、半监督支持向量回归、选择性集成算法等。但是当有标签样本很少时,这些方法无法保证对无标签样本利用的质量,也就无法实现准确预测。
技术实现思路
为了解决目前存在的问题,更准确地利用无标签样本,考虑到无标签样本中部分样本是无法通过少量有标签样本准确预测的,且少量有标签样本中存在的离群点会影响无标签样本的预测效果,本专利技术从筛选无标签样本和筛选有标签样本两个角度出发,通过定义两个优选准则,实现对无标签样本的准确预测,以提高利用无标签样本后模型的预测效果。所述方法包括:步骤1:利用无标签样本筛选算法,根据优选准则1与优选准则2筛选出无标签样本,得到无标签样本集M1优选准则1描述如下:给定一个阈值θ1,利用马氏距离来度量无标签样本x′i与有标签样本密集区中心C的相似度di,若x′i与C的距离小于θ1,则x′i满足优选条件,其中,di由公式(1)~(3)获得;di=sqrt[(x′i-C)′S-1(x′i-C)](1)式中S为无标签样本协方差矩阵,n为无标签样本数目,为无标签样本均值;优选准则2描述如下:给定一个阈值θ2,利用马氏距离来度量样本间的相似度d(xi,xj),统计样本xi与周围样本xj的马氏距离小于θ2的样本数量m,若m不小于2,则xi满足优选条件,其中,d(xi,xj)由公式(4)~(6)获得d(xi,xj)=sqrt[(xi-xj)′S-1(xi-xj)](4)式中S为有标签样本协方差矩阵,n为有标签样本数目,为有标签样本均值;马氏距离表示数据的协方差距离,能够有效的计算两个未知样本集的相似度;无标签样本筛选算法如下:Step1:初始化1,i赋初值1,给定阈值θ3;Step2:依次判断xi是否满足阈值θ3限定下的优选准则2,即用θ3替换θ2作为相似度约束,选出其中满足条件的有标签样本组成矩阵A;Step3:利用所得的A矩阵求出样本密集区中心C:其中l为A中包含的密集区样本个数,i表示样本的维度;Step4:由公式(1)~(3)计算每个无标签样本xi′与C的距离di,选出其中满足优选准则1的无标签样本存入矩阵M1中;步骤2:利用辅学习器建立算法,根据优选准则2选出有标签样本,建立一个更有针对性的辅学习器f1;辅学习器是利用有标签样本建立的一个模型,以预测无标签样本的标签;辅学习器建立算法如下:Step1:初始化2,i赋初值1;Step2:依次判断xi是否满足优选准则2,选出其中满足条件的有标签样本组成矩阵B;Step3:根据B利用高斯过程回归GPR建立辅学习器f1;GPR是一种基于统计学习理论的非参数概率模型,利用GPR建模如下:给定训练样本集X∈RD×N和y∈RN,其中X={xi∈RD}i=1…N,y={yi∈R}i=1...N分别代表D维的输入数据和输出数据,输入数据和输出数据之间的关系由公式(7)产生:y=f(x)+ε(7)其中f是未知的函数形式,ε是均值为0、方差为的高斯噪声,对于一个新的输入x*,相应的概率预测输出y*也满足高斯分布,其均值和方差如式(8)和(9)所示:y*(x*)=cT(x*)C-1y(8)式中c(x*)=[c(x*,x1),…,c(x*,xn)]T是训练数据和测试数据之间的协方差矩阵,是训练数据之间的协方差矩阵,I是N×N维的单位矩阵,c(x*,x*)是测试数据的自协方差;GPR选择高斯协方差函数:式中v控制协方差的量度,ωd代表每个成分xd的相对重要性;对式(10)中的未知参数v,ω1,…,ωD和高斯噪声方差的估计,采用极大似然估计得到参数求得参数θ的值的过程如下:为了跳出局部最优,将参数θ设置为不同范围内随机值,在每个范围内选择一个随机值,这里的范围选用不同量级,分别为0.001,0.01,0.1,1,10等;采用共轭梯度法得到优化的参数;获得最优参数θ后,对于测试样本x*,通过式(8)和(9)估计GPR模型的输出值;步骤3:利用辅学习器f1对无标签样本集M1预测其标签,将所得的伪标签样本集S1添加到初始有标签样本集S中,利用GPR方法建立主学习器,其中,S为初始的有标签样本集;伪标签样本是指利用辅学习器人为预测无标签样本获得的样本,主学习器是利用有标签样本结合伪签样本建立的模型,以跟踪测试样本。可选的,所述方法还包括:通过选出属于样本密集区的样本选出样本密集区中心;所述样本密集区指样本集中分布的区域,所述样本密集区中心是所述样本密集区的中心。可选的,所述方法为应用于工业过程中通过无标签样本预测无法直接测量的变量的方法。可选的,所述工业过程包括环保、冶金及化工过程。可选的,所述方法为应用于脱丁烷塔过程中对于丁烷浓度的预测方法或应用于炼钢过程中对于铁水中硅含量的预测方法。本专利技术有益效果是:通过一种双优选的策略,求出有标签样本密集区中心,并根据无标签样本与密集区中心的相似度筛选无标签样本,同时根据有标签样本间相似度筛选有标签样本;然后利用高斯过程回归方法对选出的有标签样本建立辅学习器,以对选出的无标签样本预测标签;最后利用这些伪标签样本提升主学习器的预测效果,解决了在标签样本很少时,无法保证对无标签样本利用的质量从而无法实现准确预测的问题,达到了利用很少的标签样本即可实现准确预测的效果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是总体算法流程图;图2有标签样本与无标签样本的直方图分布;图3数值仿真双优选半监督预测效果;图4不同方法的纵向对比;图5不同方法的预测误差对比;图6多种方法预测值与真实值的直方图统计。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。实施例:本实施例提供一种基于双优选半监督回归算法的模型预测方法,以常见的化工过程——脱丁烷塔过程为例。实验数据来自于真实过程实际采样,对丁烷浓度进行预测,参见图1,所述方法包括:步骤1:利用无标签样本筛选算法,根据优选准则1与优选准则2筛选出无标签样本,得到无标签样本集M1。优选准则1如下:给定一个阈值θ1,利用马氏距离来度量无标签样本x′i与有标签样本密集区中心C的相似度di,若x′i与C的距离小于θ1,则x′i满足优选条件。本文档来自技高网...

【技术保护点】
1.一种基于双优选半监督回归算法的模型预测方法,其特征在于,所述方法包括:步骤1:利用无标签样本筛选算法,根据优选准则1与优选准则2筛选出无标签样本,得到无标签样本集M1优选准则1描述如下:给定一个阈值θ1,利用马氏距离来度量无标签样本x′i与有标签样本密集区中心C的相似度di,若x′i与C的距离小于θ1,则x′i满足优选条件,其中,di由公式(1)~(3)获得;di=sqrt[(x′i‑C)′S‑1(x′i‑C)]   (1)

【技术特征摘要】
1.一种基于双优选半监督回归算法的模型预测方法,其特征在于,所述方法包括:步骤1:利用无标签样本筛选算法,根据优选准则1与优选准则2筛选出无标签样本,得到无标签样本集M1优选准则1描述如下:给定一个阈值θ1,利用马氏距离来度量无标签样本x′i与有标签样本密集区中心C的相似度di,若x′i与C的距离小于θ1,则x′i满足优选条件,其中,di由公式(1)~(3)获得;di=sqrt[(x′i-C)′S-1(x′i-C)](1)式中S为无标签样本协方差矩阵,n为无标签样本数目,为无标签样本均值;优选准则2描述如下:给定一个阈值θ2,利用马氏距离来度量样本间的相似度d(xi,xj),统计样本xi与周围样本xj的马氏距离小于θ2的样本数量m,若m不小于2,则xi满足优选条件,其中,d(xi,xj)由公式(4)~(6)获得d(xi,xj)=sqrt[(xi-xj)′S-1(xi-xj)](4)式中S为有标签样本协方差矩阵,n为有标签样本数目,为有标签样本均值;马氏距离表示数据的协方差距离,能够有效的计算两个未知样本集的相似度;无标签样本筛选算法如下:Step1:初始化1,i赋初值1,给定阈值θ3;Step2:依次判断xi是否满足阈值θ3限定下的优选准则2,即用θ3替换θ2作为相似度约束,选出其中满足条件的有标签样本组成矩阵A;Step3:利用所得的A矩阵求出样本密集区中心C:其中l为A中包含的密集区样本个数,i表示样本的维度;Step4:由公式(1)~(3)计算每个无标签样本xi′与C的距离di,选出其中满足优选准则1的无标签样本存入矩阵M1中;步骤2:利用辅学习器建立算法,根据优选准则2选出有标签样本,建立一个更有针对性的辅学习器f1;辅学习器是利用有标签样本建立的一个模型,以预测无标签样本的标签;辅学习器建立算法如下:Step1:初始化2,i赋初值1;Step2:依次判断xi是否满足优选准则2,选出其中满足条件的有标签样本组成矩阵B;Step3:根据B利用高斯过程回归GPR建立辅学习器f1;GPR是一种基于统计学习理论的非参数概率模型,利用GPR建模如下:给定训练样本集X∈RD×N和y...

【专利技术属性】
技术研发人员:熊伟丽程康明马君霞
申请(专利权)人:江南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1