一种基于MPA框架的松子近红外光谱波段选择方法技术

技术编号:38198050 阅读:13 留言:0更新日期:2023-07-21 16:36
一种基于MPA框架的松子近红外光谱波段选择方法,它属于光谱波段选择技术领域。本发明专利技术解决了蒙特卡洛采样优化的无信息变量消除算法存在的目标性弱、迭代次数多、算法时间复杂度高,以及当输入为共线性高的松子样本光谱数据时无法根据稳定性输出进行波段选择的问题。首先,本发明专利技术采用秃鹰搜索算法对二进制采样向量进行优化处理即可进行波段选择,因此本发明专利技术方法的目标性较强;其次,本发明专利技术在达到设置的最大迭代次数时就可以停止迭代,即通过较少的迭代次数就可以实现目的,算法时间复杂度低。而且,本发明专利技术通过引入方差膨胀系数建立了一个新的波段筛选评价指标来进行波段选择。本发明专利技术方法可以应用于对松子近红外光谱波段进行选择。择。择。

【技术实现步骤摘要】
一种基于MPA框架的松子近红外光谱波段选择方法


[0001]本专利技术属于光谱波段选择
,具体涉及一种基于MPA框架的松子近红外光谱波段选择方法。

技术介绍

[0002]由于松子中包含着多种营养素,因此近年来越来越得到研究人员的关注。近红外光谱技术作为一种无损检测技术手段已经被应用于松子的研究方面,这种技术利用被测物在近红外波段范围内的一系列漫反射率、吸光度、透射率,利用被测物的理化性质、物质含量等信息,并结合化学计量学进行非侵入式检测。目前,因其检测结果快速准确的优势,已经被广泛应用于农业、材料与食品等领域,逐渐取代传统检测手段。随着统计机器学习、数据科学领域的发展,近红外光谱检测模型研究也向着更加成熟、稳健且智能的方向发展。
[0003]模型集群分析(Model population analysis,MPA)有别于传统机器学习建模一次性将全部训练集数据训练完毕的固有模式,为了多角度获取建模数据集蕴含的样本理化性质,以期将样本数据集的信息利用率达到最高,以随机采样的方式为核心,目的是获取多个子数据集,为每一个独立的子数据集分别建立一个子模型,针对所有的集群子模型进行全面的参数输出,并对选取的重要参数进行统计分析,进而获取更加有价值的信息。
[0004]目前,常见的模型集群分析算法有蒙特卡洛采样(Monte Carlo sampling)优化的无信息变量消除算法,竞争性自适应重加权算法(CARS)以及变量组合总体分析(Variable combination population analysis,VCPA)等算法。其中,蒙特卡洛采样(Monte Carlo sampling)优化的无信息变量消除算法,广泛应用于近红外光谱的特征选择中。蒙特卡洛采样是一种无放回的采样方式,具有随机性强的特点,从训练集中随机选取一定占比的样本数据构成子训练集,其余的样本数据为独立测试集。特征数据最终是否被选择取决于稳定性公式计算输出的结果,这一重要参数是由光谱数据相关系数矩阵平均值与标准差的比值得出。蒙特卡洛采样实现了多角度随机优化特征数据,但算法存在目标性较弱迭代次数多,算法时间复杂度高的问题。另外,当输入为共线性较高的松子样本光谱数据时,无信息变量消除算法无法凭借较高的均值和标准差得到的稳定性输出来判断此波段是否予以保留。

技术实现思路

[0005]本专利技术的目的是为解决蒙特卡洛采样优化的无信息变量消除算法存在的目标性弱、迭代次数多、算法时间复杂度高,以及当输入为共线性高的松子样本光谱数据时无法根据稳定性输出进行波段选择的问题,而提出了一种基于MPA框架的松子近红外光谱波段选择方法。
[0006]本专利技术为解决上述技术问题所采取的技术方案是:
[0007]一种基于MPA框架的松子近红外光谱波段选择方法,所述方法具体包括以下步骤:
[0008]步骤一、根据长度为N
×
Q的松子近红外光谱X
nir
生成M个采样向量,将生成的M个采样向量表示为P1,P2,

,P
M

[0009]步骤二、将每个采样向量分别作为秃鹰搜索算法的一只秃鹰,通过引入方差膨胀系数对采样向量和偏最小二乘回归模型的目标函数进行优化,得到优化后的采样向量所对应的目标函数值;
[0010]步骤三、根据步骤二中得到的目标函数值确定最佳搜寻位置,再利用最佳搜寻位置对优化后的采样向量进行处理,得到处理结果;
[0011]步骤四、秃鹰在局部搜索空间内根据螺旋形状以不同的方向移动,采用极坐标方程对步骤三的处理结果进行更新,获得更新后的结果,即搜索出最佳采样向量;
[0012]步骤五、秃鹰从搜索空间的最佳采样向量位置俯冲飞向目标位置,搜索结束后得到秃鹰的空间位置;
[0013]步骤六、将步骤五中得到的秃鹰空间位置重新作为采样向量,并返回步骤二;
[0014]步骤七、重复迭代步骤二至步骤六的过程,直至达到设置的最大迭代次数时停止迭代,根据最后一次迭代所获得的M个秃鹰空间位置分别建立偏最小二乘回归模型,即建立M个偏最小二乘回归模型,再根据具有最大目标函数值的偏最小二乘回归模型所对应的秃鹰空间位置进行波段选择。
[0015]本专利技术的有益效果是:
[0016]本专利技术采用二进制采样和秃鹰搜索算法替代蒙特卡洛随机采样,通过对采样向量进行优化处理即可进行波段选择,因此,本专利技术方法的目标性强。而且,本专利技术方法在达到设置的最大迭代次数时就可以停止迭代,所以,通过较少的迭代次数就可以实现目的,算法时间复杂度低。通过引入方差膨胀系数建立一个新的波段筛选评价指标,以对无信息变量消除算法提出的稳定性判别标准进行优化,解决了当输入为共线性高的松子样本光谱数据时,无信息变量消除算法无法根据稳定性输出进行波段选择的问题,当输入为共线性高的松子样本光谱数据时,本专利技术方法仍然可以进行波段选择。
附图说明
[0017]图1是本专利技术方法的流程图;
[0018]图2是原始的松子近红外光谱图;
[0019]图3是进行波段选择后的松子近红外光谱图。
具体实施方式
[0020]具体实施方式一、结合图1说明本实施方式。本实施方式所述的一种基于MPA框架的松子近红外光谱波段选择方法,所述方法具体包括以下步骤:
[0021]步骤一、根据长度为N
×
Q的松子近红外光谱X
nir
生成M个采样向量,将生成的M个采样向量表示为P1,P2,

,P
M

[0022]步骤二、将每个采样向量分别作为秃鹰搜索算法的一只秃鹰,通过引入方差膨胀系数对采样向量和偏最小二乘回归模型的目标函数进行优化,得到优化后的采样向量所对应的目标函数值;
[0023]步骤三、根据步骤二中得到的目标函数值确定最佳搜寻位置,再利用最佳搜寻位置对优化后的采样向量进行处理,得到处理结果;
[0024]步骤四、秃鹰在局部搜索空间内根据螺旋形状以不同的方向移动,采用极坐标方
程对步骤三的处理结果进行更新,获得更新后的结果,即搜索出最佳采样向量;
[0025]步骤五、秃鹰从搜索空间的最佳采样向量位置快速俯冲飞向目标位置,搜索结束后得到秃鹰的空间位置;
[0026]步骤六、将步骤五中得到的秃鹰空间位置重新作为采样向量,并返回步骤二;
[0027]步骤七、重复迭代步骤二至步骤六的过程,直至达到设置的最大迭代次数时停止迭代,根据最后一次迭代所获得的M个秃鹰空间位置分别建立偏最小二乘回归模型,即建立M个偏最小二乘回归模型,再根据具有最大目标函数值的偏最小二乘回归模型所对应的秃鹰空间位置进行波段选择。
[0028]二进制采样是一种新型的模型集群采样方法,基于生成的二进制矩阵,行与列分别为采样次数和对应光谱数据变量,矩阵只由0,1两种元素组成,0表示该变量被选中,1为未被选中。对每列选中数目的比例进行统一设置,随后每一列自行乱序,根据每行有1的位置选取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于MPA框架的松子近红外光谱波段选择方法,其特征在于,所述方法具体包括以下步骤:步骤一、根据长度为N
×
Q的松子近红外光谱X
nir
生成M个采样向量,将生成的M个采样向量表示为P1,P2,

,P
M
;步骤二、将每个采样向量分别作为秃鹰搜索算法的一只秃鹰,通过引入方差膨胀系数对采样向量和偏最小二乘回归模型的目标函数进行优化,得到优化后的采样向量所对应的目标函数值;步骤三、根据步骤二中得到的目标函数值确定最佳搜寻位置,再利用最佳搜寻位置对优化后的采样向量进行处理,得到处理结果;步骤四、秃鹰在局部搜索空间内根据螺旋形状以不同的方向移动,采用极坐标方程对步骤三的处理结果进行更新,获得更新后的结果,即搜索出最佳采样向量;步骤五、秃鹰从搜索空间的最佳采样向量位置俯冲飞向目标位置,搜索结束后得到秃鹰的空间位置;步骤六、将步骤五中得到的秃鹰空间位置重新作为采样向量,并返回步骤二;步骤七、重复迭代步骤二至步骤六的过程,直至达到设置的最大迭代次数时停止迭代,根据最后一次迭代所获得的M个秃鹰空间位置分别建立偏最小二乘回归模型,即建立M个偏最小二乘回归模型,再根据具有最大目标函数值的偏最小二乘回归模型所对应的秃鹰空间位置进行波段选择。2.根据权利要求1所述的一种基于MPA框架的松子近红外光谱波段选择方法,其特征在于,所述采样向量为元素中仅包含1和0,且维度为Q的二进制向量。3.根据权利要求2所述的一种基于MPA框架的松子近红外光谱波段选择方法,其特征在于,所述步骤二的具体过程为:步骤二一、设为基于采样向量P
i
的矩阵算子,则利用筛选后的光谱特征向量X
selection
为:其中,i=1,2,

,M,代表利用矩阵算子对近红外光谱X
nir
进行采样;步骤二二、利用光谱特征向量X
selection
建立偏最小二乘回归模型,得到回归系数向量b;则X
selection
的第j个波段的评价指标J
j
为:J
j
=|b
j
|+VIF
j
其中,b
j
为回归系数向量b中的第j个回归系数,|
·
|代表取绝对值,VIF
j
为第j个波段的方差膨胀系数;其中,为X
selection
的第j个波段的复测定系数;步骤二三、从X
selection
中筛选出评价指标最大的n个波段,根据筛选出的n个波段为采样向量P
i
赋值,赋值后即获得优化后的采样向量将筛选出的n个波段的评价指标依次表示为J
max1
、J
max2

J
maxn
,则优化后的采样向量对
应的目标函数值F为:F=J
max1
+J
max2
+...+J
maxn
。4.根据权利要求3所述的一种基于MPA框架的松子近红外光谱波段选择方法,其特征在于,所述步骤三的具体过程为:将目标函数值最大的秃鹰所对应的位置作为最佳搜寻位置P
best
,则对优化后的采样向量的处理结果为:其中,P
i,new
为优化后的第i个采样向量的处理结果,α为控制位置变化参数,r为(0,1)间随机数,P
mean
为优化后的M个采样向量的平均结果,bin(
...

【专利技术属性】
技术研发人员:李鸿博蒋大鹏庄煜魏东辉董婉婧潘屾葛奕麟张子芳陈泽瑞
申请(专利权)人:东北农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1