一种确定偏最小二乘回归潜变量数的方法技术

技术编号:21184798 阅读:15 留言:0更新日期:2019-05-22 15:24
本发明专利技术公开了一种确定偏最小二乘回归潜变量数的方法,包括:选择潜变量数,基于采集到的样品,采用交互验证法选择N个子训练集和与之一一对应的N个子测试集;利用N个所述子训练集建立N个子模型,并利用与所述子训练集对应的子模型对与所述子训练集对应的子测试集进行预测;记录每个所述子模型的回归系数,并根据每个所述子模型的回归系数计算得到所述潜变量数对应的稳定性参数;选择另一个潜变量数,继续进行基于所述样品采用所述交互验证法建立多个子模型的步骤;确定所述稳定性参数最大时对应的潜变量数为最优潜变量数。稳定性参数随潜变量数变化的曲线具有先上升后下降的特点,方便工作人选确定最优潜变量数,从而建立稳定性良好的模型。

A Method for Determining the Number of Latent Variables in Partial Least Squares Regression

The invention discloses a method for determining the latent variable number of partial least squares regression, which includes: selecting latent variable number, selecting N sub-training sets and corresponding N sub-test sets by interactive validation method based on collected samples; establishing N sub-models by using N sub-training sets, and using the sub-models corresponding to the sub-training sets to correspond to the sub-training sets. The sub-test set is used for prediction; the regression coefficients of each sub-model are recorded and the corresponding stability parameters of the number of latent variables are calculated according to the regression coefficients of each sub-model; another number of latent variables is selected and the steps of establishing multiple sub-models based on the sample using the interactive verification method are continued; and the latent variables corresponding to the maximum stability parameters are determined. Number is the optimal number of latent variables. The curve of stability parameter changing with the number of latent variables has the characteristics of rising first and then falling. It is convenient for the job candidates to determine the optimal number of latent variables, so as to establish a model with good stability.

【技术实现步骤摘要】
一种确定偏最小二乘回归潜变量数的方法
本专利技术涉及数据分析与处理领域,特别是涉及一种确定偏最小二乘回归潜变量数的方法。
技术介绍
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。在某些特定的领域,如现代分析化学所要处理的化学数据往往是一些具有小样本数,但是却拥有很庞大的变量数的高维数据。这样的数据被称为“largep,smalln”问题,对于统计学这是一个很有挑战的问题。偏最小二乘回归(PLSR)是一种能够处理变量数多于样本数(p>n)问题的一种常用方法。潜变量(LV)数的确定决定着偏最小二乘回归模型的质量,用过少的潜变量数进行建模,会造成“欠拟合”(under-fitting),用过多的潜变量数进行建模又会造成“过拟合”(over-fitting)。目前最为常用的确定偏最小二乘回归模型潜变量数的方法是交互验证(CV)法。这种方法是将通过交互验证得到的交互验证均方根误差或决定系数作为标准来选取偏最小二乘回归模型的潜变量数,并认为能够得到最小交互验证均方根误差或最接近1的决定系数的潜变量数所建立的偏最小二乘回归模型为最优。但是以这种标准来选取潜变量数时,经常会遇到交互验证均方根误差一直减小(或决定系数一直趋近于1),或者是不同的潜变量数所建立的偏最小二乘回归模型的预测能力差别微小(或决定系数间差别微小),从而难以确定潜变量数的情况。这个时候如果还是按照这种原则确定潜变量数,往往会造成选择了过多的潜变量数进而造成偏最小二乘回归模型的过拟合。因此,如何避免在建立偏最小二乘回归模型时出现因选择了过多的潜变量数造成的过拟合的情况,是本领域技术人员需要解决的技术问题。
技术实现思路
本专利技术的目的是提供一种确定偏最小二乘回归潜变量数的方法,用于避免在建立偏最小二乘回归模型时出现因选择了过多的潜变量数造成的过拟合的情况。为解决上述技术问题,本专利技术提供一种确定偏最小二乘回归潜变量数的方法,包括:计算各潜变量数对应的稳定性参数;确定所述稳定性参数最大时对应的潜变量数为最优潜变量数;其中,计算潜变量数对应的稳定性参数具体包括:基于采集到的样品,采用交互验证法选择N个子训练集和与之一一对应的N个子测试集;其中,所述N为正整数;利用各所述子训练集建立当前潜变量数对应的子模型,并利用与所述子训练集对应的子模型对与所述子训练集对应的子测试集进行预测;记录每个所述子模型的回归系数,并根据每个所述子模型的回归系数计算得到所述潜变量数对应的稳定性参数。可选地,所述计算各潜变量数对应的稳定性参数具体包括:按从小到大的顺序排列各所述潜变量数;从最小的潜变量数开始,依次计算各所述潜变量数对应的稳定性参数并比较所述稳定性参数与上一次计算得到的稳定性参数的大小,直到稳定性参数连续减小的次数大于阈值为止。可选地,还包括:计算各所述潜变量数对应的决定系数;相应的,结合所述稳定性参数与所述决定系数确定所述最优潜变量数;其中,计算潜变量数对应的决定系数具体为根据测试得到的每个所述子测试集的预测值与每个所述子测试集的真值计算得到所述潜变量数对应的决定系数。可选地,还包括:计算各所述潜变量数对应的交互验证均方根误差;相应的,结合所述稳定性参数与所述交互验证均方根误差确定所述最优潜变量数;其中,计算潜变量数对应的交互验证均方根误差具体为根据测试得到的每个所述子测试集的预测值与每个所述子测试集的真值计算得到所述潜变量数对应的交互验证均方根误差。可选地,所述交互验证法具体为蒙特卡洛交互验证法。可选地,所述采集样品具体为:采集所述样品的分析数据和成分含量数据。可选地,所述分析数据具体为近红外光谱数据。可选地,所述分析数据具体为紫外光谱数据。本专利技术所提供的确定偏最小二乘回归潜变量数的方法,包括:选择潜变量数,基于采集到的样品,采用交互验证法选择N个子训练集和与之一一对应的N个子测试集;利用N个所述子训练集建立N个子模型,并利用与所述子训练集对应的子模型对与所述子训练集对应的子测试集进行预测;记录每个所述子模型的回归系数,并根据每个所述子模型的回归系数计算得到所述潜变量数对应的稳定性参数;选择另一个潜变量数,继续进行基于所述样品采用所述交互验证法建立多个子模型的步骤;确定所述稳定性参数最大时对应的潜变量数为最优潜变量数。通过实验表明,若采用现有技术中的决定系数或交互验证均方根误差作为选择潜变量数的依据,前者随潜变量数的增加而增加直至趋于稳定,后者随潜变量数的增加而下降直至趋于稳定,虽然两者的曲线中都有转折点,但是转折点不是很明显,工作人员很容易选错最优潜变量数,从而可能造成过拟合。而稳定性参数的曲线一般随潜变量数的增加呈现先上升后下降的趋势,因此很容易从稳定性参数的曲线图中确定稳定性参数最大的点,选择对应的潜变量数作为最优潜变量数,即可获得稳定性最好的模型,从而避免在建立偏最小二乘回归模型时出现因选择了过多的潜变量数造成的过拟合的情况。附图说明为了更清楚的说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的第一种确定偏最小二乘回归潜变量数的方法的流程图;图2为本专利技术实施例提供的稳定性参数随潜变量数变化的曲线示意图;图3为本专利技术实施例提供的一种步骤S10对应的流程图;图4为本专利技术实施例提供的第二种确定偏最小二乘回归潜变量数的方法的流程图;图5为本专利技术实施例提供的一种稳定性参数及决定系数随潜变量数变化的曲线示意图;图6为本专利技术实施例提供的第三种确定偏最小二乘回归潜变量数的方法的流程图;图7为本专利技术实施例提供的一种稳定性参数及交互验证均方根误差随潜变量数变化的曲线示意图。具体实施方式本专利技术的核心是提供一种确定偏最小二乘回归潜变量数的方法,用于避免在建立偏最小二乘回归模型时出现因选择了过多的潜变量数造成的过拟合的情况。下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的第一种确定偏最小二乘回归潜变量数的方法的流程图。图2为本专利技术实施例提供的稳定性参数随潜变量数变化的曲线示意图。如图1所示,确定偏最小二乘回归潜变量数的方法包括:S10:计算各潜变量数对应的稳定性参数。S11:确定所述稳定性参数最大时对应的潜变量数为最优潜变量数。其中,S10中计算潜变量数对应的稳定性参数具体包括:基于采集到的样品,采用交互验证法选择N个子训练集和与之一一对应的N个子测试集;其中,N为正整数;利用各子训练集建立当前潜变量数对应的子模型,并利用与子训练集对应的子模型对与子训练集对应的子测试集进行预测;记录每个子模型的回归系数,并根据每个子模型的回归系数计算得到潜变量数对应的稳定性参数。模型过拟合产生的原因是选择了过多的潜变量本文档来自技高网
...

【技术保护点】
1.一种确定偏最小二乘回归潜变量数的方法,其特征在于,包括:计算各潜变量数对应的稳定性参数;确定所述稳定性参数最大时对应的潜变量数为最优潜变量数;其中,计算潜变量数对应的稳定性参数具体包括:基于采集到的样品,采用交互验证法选择N个子训练集和与之一一对应的N个子测试集;其中,所述N为正整数;利用各所述子训练集建立当前潜变量数对应的子模型,并利用与所述子训练集对应的子模型对与所述子训练集对应的子测试集进行预测;记录每个所述子模型的回归系数,并根据每个所述子模型的回归系数计算得到所述潜变量数对应的稳定性参数。

【技术特征摘要】
1.一种确定偏最小二乘回归潜变量数的方法,其特征在于,包括:计算各潜变量数对应的稳定性参数;确定所述稳定性参数最大时对应的潜变量数为最优潜变量数;其中,计算潜变量数对应的稳定性参数具体包括:基于采集到的样品,采用交互验证法选择N个子训练集和与之一一对应的N个子测试集;其中,所述N为正整数;利用各所述子训练集建立当前潜变量数对应的子模型,并利用与所述子训练集对应的子模型对与所述子训练集对应的子测试集进行预测;记录每个所述子模型的回归系数,并根据每个所述子模型的回归系数计算得到所述潜变量数对应的稳定性参数。2.根据权利要求1所述的方法,其特征在于,所述计算各潜变量数对应的稳定性参数具体包括:按从小到大的顺序排列各所述潜变量数;从最小的潜变量数开始,依次计算各所述潜变量数对应的稳定性参数并比较所述稳定性参数与上一次计算得到的稳定性参数的大小,直到稳定性参数连续减小的次数大于阈值为止。3.根据权利要求1所述的方法,其特征在于,还包括:计算各所述潜变量数对应的...

【专利技术属性】
技术研发人员:张辞海彭黔荣胡芸刘娜
申请(专利权)人:贵州中烟工业有限责任公司
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1