当前位置: 首页 > 专利查询>东北大学专利>正文

基于λ-SPXY算法的红外光谱多元校正回归建模方法技术

技术编号:13469274 阅读:914 留言:0更新日期:2016-08-05 01:50
本发明专利技术公开了一种基于λ‑SPXY算法的红外光谱多元校正回归建模方法,包括以下步骤:根据待测样品光谱的样本集特征,设定最优权重调整参数λ,给样本集仪器响应矢量空间X和因变量空间Y分配不同的权重;再利用λ‑SPXY算法选定校正集并建立回归模型。本发明专利技术提供了一种可以充分考虑X和Y空间各自贡献的数据集划分方法,可以更有效的覆盖多维空间;在多元校正的数据集划分方面,此方法可以获得比传统的SPXY方法更合理的结果,并大幅度改善建立模型的预测性能。

【技术实现步骤摘要】

本专利技术涉及一种基于λ-SPXY算法的红外光谱多元校正回归建模方法,属于多元校正回归建模领域。
技术介绍
多元校正回归建模方法已经应用在各类定量分析领域,应用最广泛的是偏最小二乘法(PLS)。在多元校正回归建模的过程中,所建模型的性能在很大程度上取决于所使用的校正集。因此,如何从大量样本中选取具有代表性的样本构建高质量的、有利于提升模型性能的校正集极为重要。目前,选取样本构建校正集的方法主要有两种方式:聚类划分原则和均衡化划分原则。聚类划分原则主要针对样本集进行聚类分析,然后依据聚类分析的相应结果选取代表性的样本构建校正集;而均衡化原则的核心思想是选择代表性样本使其尽可能的按照空间距离均匀的覆盖整个样本空间。目前,均衡化设计原则的样本选择方法主要有随机法RS(Randomsampling)、基于仪器响应矢量空间X的空间距离选取原则的KS(Kennard–Stone)法,基于仪器响应矢量空间X和因变量空间Y的联合空间距离选取原则的SPXY(SamplesetportioningbasedonjointX-Ydistances)法。RS操作简便,随机性大,不能保证所选样本具有代表性和外推能力。KS方法的目标是通过计算样本数据间的欧氏距离使所选出的样本能够均匀地覆盖整个样本集区域。距离样本集的均值最近的样本视为最具有代表性的样本,作为第一样本入选校正集。然后,根据样本与已分配到校正集的样本之间的欧式距离,按顺序连续选出样本。重复这样的过程直到获得指定数量的样本。缺陷是只考虑了仪器响应矢量空间X的特征,没有考虑样本的因变量空间Y的影响。故此也存在这局限性和不合理性,难以获取性能稳定且适用性较强的模型。基于X-Y联合距离选择原则的SPXY划分方法与基于X空间距离选择原则的KS划分方法最大的不同是既充分考虑仪器响应矢量空间X又考虑因变量空间Y的影响。此时的欧氏距离改写为: d x , y ( m , n ) = d x ( m , n ) maxd x ( i , j ) + d y ( m , n ) maxd y ( i , j ) - - - ( 1 ) ]]>其中,i=1,2…N,j=1,2…N且i≠j。dx,y(m,n)为样本m和n之间的联合距离,λ为权重调整参数,dx(m,n)为样本m和n在X空间的空间欧氏距离,dy(m,n)为样本m和n在Y空间的空间欧氏距离,maxdx(i,j)为所有样本中在X空间的最大欧氏空间距离,maxdy(i,j)为所有样本中在Y空间的最大欧氏空间距离。此类方法比起KS方法,改进了数据集划分的距离选择判据,考虑了因变量空间的因素;但是此方法并没有考虑样本集的具体特征,只是为仪器响应空间X和因变量空间Y赋予了相等的权重,认为对于所有的样本集来说,X空间和Y空间的影响都是相同权重的,这显然对于具体的样本集来说是不符合实际的,因而导致最终建立的模型的预测准确性及稳定性受限,无法满足实际需求。
技术实现思路
本专利技术的目的在于,提供一种基于λ-SPXY算法的红外光谱多元校正回归建模方法,它能够兼顾待测样本集的光谱(仪器响应矢量空间X)距离分布特征和样品因变量(Y)空间距离分布特征,并且依据样本的具体特征和所设计的优化原则,分配给仪器响应矢量空间X和因变量空间Y不同的权重,以解决现有技术数据集划分方法中存在的缺点,提高回归建模的预测性能及稳定性。为解决上述技术问题,本专利技术采用如下的技术方案:一种基于λ-SPXY算法的红外光谱多元校正回归建模方法,包括以下步骤:根据待测样品光谱的样本集特征,设定最优权重调整参数λ,给样本集仪器响应矢量空间X和因变量空间Y分配不同的权重;再利用λ-SPXY算法选定校正集并建立回归模型。如前述的基于λ-SPXY算法的红外光谱多元校正回归建模方法,具体步骤包括:S1.计算待测样本集中样本m和n之间的X空间的空间距离dx(m,n)和Y空间的空间距离dy(m,n),其中,m,n∈[1,N],N为总样本数;S2.根据待测样品光谱的样本集特征,设定最优权重调整参数λ;给样本集仪器响应矢量空间X和因变量空间Y分配不同的权重;再利用λ-SPXY算法得到样本m和n之间的联合空间距离dx,y(m,n);选择联合空间距离最大的两个样本加入校正集;S3.在未入选所述校正集的剩余样本中,根据剩余样本与已入选校正集的各个样本之间的联合空间距离再次进行样本选择,并将其加入校正集;S4.判断所述校正集中样本是否达到指定的数量,若是则得出最终的校正集,并转至S5,否则重复步骤S2;S5.利用最终的校正集建立回归模型。因而可以保证最终所建模型的性能,使其预测精度较高,同时稳定性较好。如前述的基于λ-SPXY算法的红外光谱多元校正回归建模方法,所述根据待测样品光谱的样本集特征,设定最优权重调整参数λ具体通过以下方式获得:Sa.设定权重调整参数λ的初始值为零;Sb.利用λ-SPXY算法选定λ值所对应的校正集,并建立回归模型,求取预测均方根误差RMSEP和交叉验证均方根误差RMSECV之和F(λ),F(λ)=RMSEP(λ)+RMSECV(λ);Sc.判断λ是否等于1,是则转至Sd,不是则将λ在0-1范围内以μ间隔为步长递增,并转至Sb;Sd.利用参数优化选取原则,选取最小的F(λ)值所对本文档来自技高网
...

【技术保护点】
一种基于λ‑SPXY算法的红外光谱多元校正回归建模方法,其特征在于,包括以下步骤:根据待测样品光谱的样本集特征,设定最优权重调整参数λ,给样本集仪器响应矢量空间X和因变量空间Y分配不同的权重;再利用λ‑SPXY算法选定校正集并建立回归模型。

【技术特征摘要】
1.一种基于λ-SPXY算法的红外光谱多元校正回归建模方法,其特征在于,包括以下步
骤:根据待测样品光谱的样本集特征,设定最优权重调整参数λ,给样本集仪器响应矢量空
间X和因变量空间Y分配不同的权重;再利用λ-SPXY算法选定校正集并建立回归模型。
2.根据权利要求1所述的基于改进SPXY算法的红外光谱多元校正回归建模方法,其特征
在于,具体步骤包括:
S1.计算待测样本集中样本m和n之间的X空间的空间欧式距离dx(m,n)和Y空间的空间
欧式距离dy(m,n),其中,m,n∈[1,N],N为总样本数;
S2.根据待测样品光谱的样本集特征,设定最优权重调整参数λ;给样本集仪器响应矢量空
间X和因变量空间Y分配不同的权重;再利用λ-SPXY算法得到样本m和n之间的联合空
间距离dx,y(m,n);选择联合空间距离最大的两个样本加入校正集;
S3.在未入选所述校正集的剩余样本中,根据剩余样本与已入选校正集的各个样本之间的联
合空间距离再次进行样本选择,并将其加入校正集;
S4.判断所述校正集中样本是否达到指定的数量,若是则得出最终的校正集,并转至S5,
否则重复步骤S2;
S5.利用最终的校正集建立回归模型。
3.根据权利要求2所述的基于λ-SPXY算法的红外光谱多元校正回归建模方法,其特征在
于,所述根据待测样品光谱的样本集特征,设定最优权重调整参数λ具体通过以下方式获
得:
Sa.设定权重调整参数λ的初始值为零;
Sb.利用λ-SPXY算法选定λ值所对应的校正集,并建立回归模型,求取预测均方根误差
RMSEP和交叉验证均方根误差RMSECV之和F(λ),F(λ)=RMSEP(λ)+RMSECV(λ);
Sc.判断λ是否等于1,是则转至Sd,不是则将λ在0-1范围内以μ间隔为步长递增,并转
至Sb;
Sd.利用参数优化选取原则,选取最小的F(λ)值所对应的λ,作为最优权重调整参数λ。
4.根据权利要求2所述的基于λ-SPXY算法的红外光谱多元校正回归建模方法,其特征在
于,步骤S2中所述的利用λ-SPXY算法计算相应λ值得到样本m和n之间的联合空间距离
dx,y(m,n)具体通过以下方式获得:
d x , y ( m , n ) = λ · d x ( m , n ) max m , ...

【专利技术属性】
技术研发人员:李志刚吕江涛单鹏王巧云
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1