一种基于最小角排序选择的优选训练集的方法技术

技术编号:39407700 阅读:9 留言:0更新日期:2023-11-19 15:59
本发明专利技术公开了一种基于最小角排序选择的优选训练集的方法,解决定量分析任务中样本过多引入误差的问题。包括:采集待测样品的光谱数据和参比值;使用样本划分方法将样本集划分为训练集和预测集;计算优选训练集的近似理想光谱作为排序时的目标光谱;采用最小角对训练集样本重新排序,建立训练子集和PLS子模型;根据模型结果确定优选训练集。该方法通过最小角对训练集样本进行排序选择,能够压缩样本容量并优化样本分布,优选训练集更接近预测集的分布,有效提升模型预测效果。有效提升模型预测效果。有效提升模型预测效果。

【技术实现步骤摘要】
一种基于最小角排序选择的优选训练集的方法


[0001]本专利技术涉及一种基于最小角排序选择的优选训练集的方法。

技术介绍

[0002]得益于近红外光谱分析具有简单,快速,无损、具有成本效益的特点,化学计量学结合近红外光谱技术建立定性和定量分析预测模型成为了农业食品领域的流行分析工具。然而,现代分析仪器的飞速发展及其强大的快速产生数据的能力,使得分析化学工作者能够容易地得到大量样本的光谱数据,且采集到的光谱具有很高的维数。但是,当训练集的样本已经具有代表性,建立出的模型已经可以在验证集上获得很好的预测效果后,训练集再增加建模样本就会引入分析误差,带来冗余,覆盖有用的信息,降低模型性能,增加光谱分析的成本效益。选择合理有效的建模样本不仅可以改善上述问题,当遇到模型界外样本时,还便于更新和维护模型,并且样本的选择在多元校正模型的传递中也非常重要。因此,对建模样本进行优选是非常必要的,从这些样本的近红外光谱中剔除冗余和噪声波长也十分必要。然而,目前大多数建模过程并没有对训练集进行二次选择,也没有研究过二次选择后的训练集与原训练集样本在数量和分布上的情况。

技术实现思路

[0003]本专利技术的目的是提出一种最小角排序选择的方法对训练集样本进行优选,达到有效压缩原始训练集样本容量并提高模型预测能力的目的。该方法包括以下步骤:
[0004]采集待测样品的光谱数据X和参比值y;
[0005]采用最小角对训练集样本重新排序:
[0006]①
计算训练集的理想光谱,用训练集样本的平均光谱近似。是每一次在已选样本子集中添加新样本后获得的的估计值,ε为给定的精确度,n为训练集样本数。与各样本x
i
之间的关系为:
[0007][0008]该算法从和与最为接近的样本x1=X
i
开始,此时
[0009]②
在连续的循环中从尚未被使用的样本子集S中选择出与已选样本线性空间L相关性最大的样本x
i
,在样本x
i
的方向上移动步长θ
i

[0010]③
循环步骤

直至无多余样本或估计值距离目标光谱小于ε,此时获得重新排序的光谱数据
[0011]当循环进行到第j次时,获得与L的相关性最大的样本x
j
计算公式如下:
[0012]argmax{L(L
T
L)
‑1L
T
x
i
},x
i
∈S
[0013]则此时的估计值为:
[0014][0015]此时,移动步长θ
j
的约束条件如下:
[0016][0017]对重新排序的光谱进行二次选择的步骤是:
[0018]①
从20个样本开始依次添加进训练子集建立PLS模型,PLS模型的因子数LVs默认为20,共建立n

19个PLS模型;
[0019]②
计算训练子集的交互验证均方根误差(RMSECV),共获得n

19个RMSECV值;
[0020]③
比较n

19个RMSECV值,选择RMSECV最小时对应的训练子集作为优选的训练集。
附图说明
[0021]本专利技术结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0022]图1(a)为本专利技术专利提供的总体流程图。
[0023]图1(b)为本专利技术专利提供的最小角对训练集样本排序过程的流程图。
[0024]图2为本专利技术一实施例的样本集光谱图。
[0025]图3(a)为本专利技术一实施例中,PLS模型计算的训练集均方根误差(RMSECV)和预测集均方根误差(RMSEP)随训练集样本数变化的曲线。
[0026]图3(b)为本专利技术一实施例中,原始训练集、预测集和优选训练集的箱线图。
[0027]图4(a)为本专利技术一实施例中,优选训练集光谱残差与杠杆值的关系图。
[0028]图4(b)为本专利技术一实施例中,优选训练集参比值与偏差的关系图。
[0029]图5(a)为本专利技术一实施例中,预测集光谱残差与杠杆值的关系图。
[0030]图5(b)为本专利技术一实施例中,预测集参比值与偏差的关系图。
[0031]图6为本专利技术一实施例中,参比值与预测值的拟合图。
具体实施方式
[0032]以下结合附图对本专利技术的具体实施方式进行详细说明。此处所描述的具体实施方式仅用于说明和解释本专利技术,并不用于限制本专利技术。图1(b)是本专利技术专利提供的最小角对训练集样本重新排序过程的流程图,但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。本专利技术具体包括以下步骤:
[0033]采集待测样品的光谱数据和参比值。本实例待测样本为90个红富士苹果,采集每个样本四个面的光谱和糖度值。光谱仪波长范围为350

1150nm,1044个波长点。光照强度、积分时间和装置运动速度设置为6.5A、120ms和0.5m/s。糖度值采用折射式数字糖度仪(PR

101a,日本)测量。使用python对数据进行分析。样本集光谱图如图2所示。
[0034]采用3σ法进行异常样本检测,未发现有异常样本。使用train_test_split(X,y,test_size=0.25)将样本集按3:1划分为训练集样本和测试集样本。样本集统计结果如下表所示。
[0035][0036]采用最小角排序选择对训练集优选,排序结果如图3(a)所示,优选训练集与初始训练集样本的分布箱线图如图3(b)所示,两个训练集建立的模型结果如下表所示。图3(a)中,RMSECV曲线在训练集样本数为139时最小,此时RMSECV=0.6838。当训练集样本数继续增加,RMSECV突增0.15左右并一直维持,这是由于冗余的样本引入了分析误差,且随着训练集样本增多这样的误差也没有减小。冗余的样本的引入对未知样本的预测能力产生影响,RMSEP曲线在样本为140个时也突增0.15左右。因此,确定优选训练集为前139个样本。图3(b)中,优选训练集的范围比原始训练集小,缩小了模型的适应范围,不过对那些样本的预测也不准确。优选训练集的离散程度更接近预测集,提高了适应范围内样本的预测准确度。
[0037][0038]获得优选训练集后,根据国家标准GB/T 29858

2013的规定,通过杠杆值与光谱残差关系图剔除第一类异常样本,通过参比值与预测值关系图剔除第二类异常样本。
[0039]图4(a)为本专利技术一实施例中,优选训练集光谱残差与杠杆值的关系图。
[0040]图4(b)为本专利技术一实施例中,优选训练集参比值与偏差的关系图。
[0041]图5(a)为本专利技术一实施例中,预测集光谱本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于最小角排序选择的优选训练集的方法,其特征在于:将样本集划分为训练集和预测集后,计算训练集样本光谱的近似理想光谱作为排序时的目标光谱,采用最小角对训练集样本重新排序,根据排序后的训练子集建立PLS子模型,根据模型结果完成优选。2.根据权利要求1所述的方法,其中,所述基于最小角排序选择的优选训练集的方法用于定量分析。3.根据权利要求1所述的方法,其中,所述样本集的容量为大于或等于100个。4.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:刘燕德王昱麒李斌胡军姜小刚
申请(专利权)人:华东交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1