一种改进Mallow'sCp变量选择的工业过程软测量方法和系统技术方案

技术编号:38866420 阅读:34 留言:0更新日期:2023-09-22 14:05
本发明专利技术公开了一种改进Mallow's Cp变量选择的工业过程软测量方法和系统,解决工业生产过程辅助变量过多,数据冗余的问题,并且对传统的Mallow's Cp算法进行优化,以缩短算法时间复杂度。该方法首先用随机森林算法对变量重要性进行排序,然后根据排列的顺序,从一个变量开始,依次递增变量个数,并在这个过程中计算每个子集的Cp值,从而选择出一组最优子集。选择出最优子集后,该方法使用最优子集来训练支持向量回归(SVR)模型,并通过测试数据评估模型的性能。本方法通过结合随机森林、Mallow's Cp算法和SVR回归等多种机器学习方法,能够有效地提高机器学习模型的性能和泛化能力,适用于各种需要进行变量重要性排序和建立连续型变量预测模型的实际问题。型变量预测模型的实际问题。型变量预测模型的实际问题。

【技术实现步骤摘要】
一种改进Mallow

s Cp变量选择的工业过程软测量方法和系统


[0001]本专利技术涉及工业过程软测量领域,特别是一种基于Mallow

s CP算法的变量选择方法,用于优化SVR的工业过程软测量。

技术介绍

[0002]在工业过程控制和优化过程中,软测量是一种重要的技术手段,它可以通过计算机技术,对工业生产过程中的各种参数和变量进行实时监测和预测来实现对过程的控制和优化,软测量技术广泛应用于化工、石化、食品、制药、能源等行业中,可以提高生产效率,产品质量和工厂安全性。尤其在工业过程中,软测量技术尤为重要。
[0003]工业过程软测量是一种基于数据驱动的建模方法,通常使用多元线性回归模型进行建模,其中包括多个输入变量和一个输出变量。可以通过采集过程中的各种测量数据来对工业过程进行监控和预测,由于工业过程存在大量的变量,在建立软测量模型的过程中,变量选择是一个重要的步骤,选择最佳的变量组合可以提高建模的准确性和鲁棒性,降低建模的复杂度和成本。传统的变量选择方法通常是基于统计学的方法,如逐步回归分析和主成分分析以及皮尔逊系数等。然而,这些方法都不能很好的处理非线性关系,而且容易出现过拟合问题,并且在处理大量变量时计算量较大。

技术实现思路

[0004]本专利技术提供了一种Mallow

s cp以及优化mallow

s Cp算法的变量选择方法,优化后的方法通过随机森林算法对变量重要性进行排序,然后采用依次递增的方式增加子集个数并计算子集的Cp值,最后选择cp值最小的子集作为一组最佳变量,从而使得变量选择过程更加高效。用以上方法优化支持向量回归(SVR),以实现最佳的工业过程软测量,该方法包括以下步骤:
[0005]S1,获取工业过程中的数据集X,所述数据集X包括工业过程中通过传感器测得的多个影响目标测量值的变量特征和目标测量值以及每个特征对应的采集到的数条样本数据;
[0006]S2,对数据集X中各特征对应的数据样本进行标准化,并对数据集中特征对应的数据样本划分为训练集和测试集;
[0007]S3,利用随机森林算法对所有变量特征进行排序,以确定各特征的重要性;
[0008]S4,按照特征重要性从高到低的顺序,依次增加特征数量,并通过Mallow

s Cp计算每个特征组合的Cp值;
[0009]S5,选择Cp值最小的特征子集作为最佳特征子集;
[0010]S6,利用最佳特征子集对应的训练集对支持向量回归SVR模型进行离线建模;
[0011]S7,利用离线建模好的SVR模型对最佳特征子集对应的测试集进行软测量,得到相应的预测目标值。
[0012]进一步的,S2中标准化处理的具体实现方式如下;
[0013]标准化处理包括对数据集中各特征对应的数据样本进行标准差归一化,标准差归一化是将数据集中特征对应得数据样本转换为以0为中心的数据分布,具体公式如下:
[0014]x_std=(x

min(x))/(max(x)

min(x))
[0015]其中,x为数据集中某个数值型特征对应的数据样本的原始值,x_std为该特征对应的数据样本标准差归一化后的值,min(x)为该特征对应的数据样本中的最小值,max(x)为该特征对应的数据样本中的最大值。
[0016]进一步的,步骤S3的具体实现方式如下:
[0017](3.1)从变量特征中采样得到n个随机子集,每个子集的大小相同;
[0018](3.2)对于每个随机子集,使用决策树算法进行训练,在每个节点上,从随机子集中选择一个随机样本和一组随机特征进行分裂;
[0019](3.3)对于每个决策树,通过基尼指数计算每个特征的重要性,为每个特征分配一个分数,这些分数用来对特征重要性进行排序;
[0020](3.4)通过组合所有决策树的预测结果,进行投票或平均,得到最终预测结果。
[0021]进一步的,步骤S4中Mallow

s Cp的定义如下:
[0022][0023]其中,Cp表示Mallow

s Cp值,MSE表示均方误差,即实际值与模型预测值之间的差的平方和除以样本数量,P表示模型中使用的特征的数量,N表示样本数量,S2表示残差平方和的无偏估计,N表示样本数量。
[0024]进一步的,S2的计算公式如下:
[0025][0026]其中,SSE是残差平方和。
[0027]进一步的,其特征在于:S6的具体实现方式如下;
[0028](6.1)SVR模型的目标是最小化模型预测值与真实值之间的误差,其约束问题为:
[0029][0030]s.t.|w
·
x
i
+b

y
i
|

ε≤ξ
i
,ξ
i
≥0
[0031]其中,w
·
x
i
+b代表预测值,w代表权重向量,x
i
表示第i个样本数据,b是偏置项,y
i
是实际值,|w
·
x
i
+b

y
i
|表示误差绝对值,ε代表精度,ξ
i
代表损失,参数C代表着正则化参数,N表示样本数量;如果(x
i
,y
i
)的预测误差绝对值小于等于ε,则ξ
i
=0,如果(x
i
,y
i
)的预测误差绝对值大于ε,则ξ
i
=|w
·
x
i
+b

y
i
|

ε;
[0032](6.2)参数调优:使用交叉验证技术调整SVR模型的超参数,以提高模型的泛化能力。
[0033]进一步的,还包括步骤S8,对离线建好的SVR模型进行泛化能力评估,具体包括使用均方误差MSE和决定系数对SVR模型的性能进行评估;
[0034](2.4.1)均方误差MSE的公式为:
[0035][0036](2.4.2)决定系数的R2公式为:
[0037][0038]式中y
i
为实际值,y
ipre
为模型预测值,n代表样本个数,代表目标变量的平均值。
[0039]本专利技术还提供一种改进Mallow

s Cp变量选择的工业过程软测量系统,包括如下模块:
[0040]数据集获取模块,用于获取工业过程中的数据集X,所述数据集X包括工业过程中通过传感器测得的多个影响目标测量值的变量特征和目标测量值以及每个特征对应的采集到的数条样本数据;
[0041]标准化处理模块,用于对数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于,包括如下步骤:S1,获取工业过程中的数据集X,所述数据集X包括工业过程中通过传感器测得的多个影响目标测量值的变量特征和目标测量值以及每个特征对应的采集到的数条样本数据;S2,对数据集X中各特征对应的数据样本进行标准化,并对数据集中特征对应的数据样本划分为训练集和测试集;S3,利用随机森林算法对所有变量特征进行排序,以确定各特征的重要性;S4,按照特征重要性从高到低的顺序,依次增加特征数量,并通过Mallow's Cp计算每个特征组合的Cp值;S5,选择Cp值最小的特征子集作为最佳特征子集;S6,利用最佳特征子集对应的训练集对支持向量回归SVR模型进行离线建模;S7,利用离线建模好的SVR模型对最佳特征子集对应的测试集进行软测量,得到相应的预测目标值。2.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于:S2中标准化处理的具体实现方式如下;标准化处理包括对数据集中各特征对应的数据样本进行标准差归一化,标准差归一化是将数据集中特征对应得数据样本转换为以0为中心的数据分布,具体公式如下:x_std=(x

min(x))/(max(x)

min(x))其中,x为数据集中某个数值型特征对应的数据样本的原始值,x_std为该特征对应的数据样本标准差归一化后的值,min(x)为该特征对应的数据样本中的最小值,max(x)为该特征对应的数据样本中的最大值。3.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于:步骤S3的具体实现方式如下:(3.1)从变量特征中采样得到n个随机子集,每个子集的大小相同;(3.2)对于每个随机子集,使用决策树算法进行训练,在每个节点上,从随机子集中选择一个随机样本和一组随机特征进行分裂;(3.3)对于每个决策树,通过基尼指数计算每个特征的重要性,为每个特征分配一个分数,这些分数用来对特征重要性进行排序;(3.4)通过组合所有决策树的预测结果,进行投票或平均,得到最终预测结果。4.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于:步骤S4中Mallow's Cp的定义如下:其中,Cp表示Mallow's Cp值,MSE表示均方误差,即实际值与模型预测值之间的差的平方和除以样本数量,P表示模型中使用的特征的数量,N表示样本数量,S2表示残差平方和的无偏估计,N表示样本数量。5.如权利要求4所述的一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于:S2的计算公式如下:
其中,SSE是残差平方和。6.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于:S6的具体实现方式如下;(6.1)SVR模型的目标是最小化模型预测值与真实值之间的误差,其约束问题为:s.t.|w
·
x
i
+b

y
i
|

ε≤ξ
i

i
≥0其中,w
·
x
i
+b代表预测值,w代表权重向量,x
i
表示第i个样本数据,b是偏置项,y
i
是实际值,|w
·
x
i
+b

y
i
|表示误差绝对值,ε代表精度,ξ
i
代表损失,参数C代表着正则化参数,N表示样本数量;如果(x
i
,y
i
)的预测误差绝对值小于等于ε,则ξ
i
=0,如果(x
i
,y
...

【专利技术属性】
技术研发人员:王兆静李贺阮晓莉颜小运童一凡
申请(专利权)人:武汉纺织大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1