The invention discloses a model prediction method based on double optimal semi-supervised regression algorithm, which belongs to the field of semi-supervised regression. Through a double-optimization strategy, the labeled sample dense area center is obtained, and the labeled samples are screened according to the similarity between the labeled samples and the center of the dense area. At the same time, the labeled samples are screened according to the similarity between the labeled samples. Then, the auxiliary learner is established by using the Gauss process regression method for the selected labeled samples. Finally, these pseudo-labeled samples are used to improve the prediction effect of the master learner, which solves the problem that the quality of the labeled samples can not be guaranteed when the labeled samples are few, and thus the accurate prediction can not be achieved by using a few labeled samples. The effect.
【技术实现步骤摘要】
一种基于双优选半监督回归算法的模型预测方法
本专利技术涉及一种基于双优选半监督回归算法的模型预测方法,属于半监督回归领域。
技术介绍
化工、冶金和发酵等工业过程中的一些重要质量变量,往往无法通过在线仪表测量,而通过实验室离线分析的方式又存在严重的滞后,因此需要通过一些能够直接测得的样本数据来对这些重要质量变量进行预测。而随着科技的发展,尤其是工业大数据技术的发展,无标签样本越来越易大量获得,而有标签样本获取代价依然很大,导致在某些工业过程中有标签样本很少,传统的建模方法在这种情况下难以保证模型的预测效果。为了解决这些问题,研究利用少量有标签样本和大量无标签样本来提高学习性能的半监督学习受到了密切关注。目前,半监督聚类与半监督分类方面的研究很多,半监督回归方面的研究却很少。半监督回归已有的方法如利用流行学习的半监督回归算法、协同训练算法、半监督支持向量回归、选择性集成算法等。但是当有标签样本很少时,这些方法无法保证对无标签样本利用的质量,也就无法实现准确预测。
技术实现思路
为了解决目前存在的问题,更准确地利用无标签样本,考虑到无标签样本中部分样本是无法通过少量有标签样本准确预测的,且少量有标签样本中存在的离群点会影响无标签样本的预测效果,本专利技术从筛选无标签样本和筛选有标签样本两个角度出发,通过定义两个优选准则,实现对无标签样本的准确预测,以提高利用无标签样本后模型的预测效果。所述方法包括:步骤1:利用无标签样本筛选算法,根据优选准则1与优选准则2筛选出无标签样本,得到无标签样本集M1优选准则1描述如下:给定一个阈值θ1,利用马氏距离来度量无标签样本x′i与 ...
【技术保护点】
1.一种基于双优选半监督回归算法的模型预测方法,其特征在于,所述方法包括:步骤1:利用无标签样本筛选算法,根据优选准则1与优选准则2筛选出无标签样本,得到无标签样本集M1优选准则1描述如下:给定一个阈值θ1,利用马氏距离来度量无标签样本x′i与有标签样本密集区中心C的相似度di,若x′i与C的距离小于θ1,则x′i满足优选条件,其中,di由公式(1)~(3)获得;di=sqrt[(x′i‑C)′S‑1(x′i‑C)] (1)
【技术特征摘要】
1.一种基于双优选半监督回归算法的模型预测方法,其特征在于,所述方法包括:步骤1:利用无标签样本筛选算法,根据优选准则1与优选准则2筛选出无标签样本,得到无标签样本集M1优选准则1描述如下:给定一个阈值θ1,利用马氏距离来度量无标签样本x′i与有标签样本密集区中心C的相似度di,若x′i与C的距离小于θ1,则x′i满足优选条件,其中,di由公式(1)~(3)获得;di=sqrt[(x′i-C)′S-1(x′i-C)](1)式中S为无标签样本协方差矩阵,n为无标签样本数目,为无标签样本均值;优选准则2描述如下:给定一个阈值θ2,利用马氏距离来度量样本间的相似度d(xi,xj),统计样本xi与周围样本xj的马氏距离小于θ2的样本数量m,若m不小于2,则xi满足优选条件,其中,d(xi,xj)由公式(4)~(6)获得d(xi,xj)=sqrt[(xi-xj)′S-1(xi-xj)](4)式中S为有标签样本协方差矩阵,n为有标签样本数目,为有标签样本均值;马氏距离表示数据的协方差距离,能够有效的计算两个未知样本集的相似度;无标签样本筛选算法如下:Step1:初始化1,i赋初值1,给定阈值θ3;Step2:依次判断xi是否满足阈值θ3限定下的优选准则2,即用θ3替换θ2作为相似度约束,选出其中满足条件的有标签样本组成矩阵A;Step3:利用所得的A矩阵求出样本密集区中心C:其中l为A中包含的密集区样本个数,i表示样本的维度;Step4:由公式(1)~(3)计算每个无标签样本xi′与C的距离di,选出其中满足优选准则1的无标签样本存入矩阵M1中;步骤2:利用辅学习器建立算法,根据优选准则2选出有标签样本,建立一个更有针对性的辅学习器f1;辅学习器是利用有标签样本建立的一个模型,以预测无标签样本的标签;辅学习器建立算法如下:Step1:初始化2,i赋初值1;Step2:依次判断xi是否满足优选准则2,选出其中满足条件的有标签样本组成矩阵B;Step3:根据B利用高斯过程回归GPR建立辅学习器f1;GPR是一种基于统计学习理论的非参数概率模型,利用GPR建模如下:给定训练样本集X∈RD×N和y...
【专利技术属性】
技术研发人员:熊伟丽,程康明,马君霞,
申请(专利权)人:江南大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。