当前位置: 首页 > 专利查询>三峡大学专利>正文

基于堆叠式模型的土壤重金属含量检测方法技术

技术编号:36329837 阅读:16 留言:0更新日期:2023-01-14 17:39
本发明专利技术涉及基于堆叠式模型的土壤重金属含量检测方法,包括:采集土壤样品,配置预定重金属浓度范围的土壤样本;获取土壤样本的光谱,形成样本光谱数据集;利用迭代保留信息法筛选出光谱中的强信息变量与弱信息变量;选出具有代表性的四种特征变量选择方法,分别构建基学习器进行训练、测试;将基学习器集成,构建元学习器,并对元学习器进行训练、测试;将待检测土壤的光谱输入基学习器,依据元学习器得到的波长点判断分析土壤重金属的含量。本发明专利技术将多种波长变量选择算法并联、集成,克服了单一特征变量选择方法的缺陷,提高了土壤重金属含量的检测精度,检测结果稳定性好。检测结果稳定性好。检测结果稳定性好。

【技术实现步骤摘要】
基于堆叠式模型的土壤重金属含量检测方法


[0001]本专利技术属于农业环境检测领域,具体涉及一种基于堆叠式模型的土壤重金属含量检测方 法。

技术介绍

[0002]土壤中的元素多种多样,直接获得的X射线荧光光谱具有高维度、多冗余的特点。此外, 各种元素之间还有着增强吸收效应,因此需要剔除这些无用信息,最大化利用有用信息。目 前流行的区间选择算法主要有变量区间选择法、变量信息选择法、变量优化选择法和变量统 计选择算法。这些算法各有优劣,有的算法侧重于筛选波长区间,有的侧重于筛选波段,均 存在缺陷,效果不理想。
[0003][0004]因此,需要进一步研究优化整合这些算法,使其不再针对单个的变量进行选择,在降维 的同时也能考虑到元素之间的增强吸收效应。

技术实现思路

[0005]本专利技术的技术问题是目前已有的光谱特征变量选择算法大多考虑如何选出有效的波段或 波长区间,并不会对波长点进行优化,影响了根据光谱特征变量预测土壤重金属含量的效率; 现有的以逐步选择算法为代表的光谱波长点的精选算法效果并不理想。
[0006]本专利技术的目的是针对上述问题,提供一种基于堆叠式模型的土壤重金属含量检测方法, 将区间偏最小二乘法(interval partial least squares,iPLS)、变量区间组合优化算法(intervalcombination optimization,ICO)、萤火虫算法(firefly algorithm,FA)和连续投影算法(successiveprojections algorithm,SPA)等多种波长变量选择算法并联、集成,采用多个基学习器和元学 习器组成的堆叠式模型,获取土壤样本光谱的波长点,克服单一特征变量选择方法的缺陷; 对并联的多个基学习器进行分组训练,提高训练的效率。
[0007]本专利技术的技术方案是基于堆叠式模型的土壤重金属含量检测方法,包括以下步骤:
[0008]步骤1:采集土壤样品,配置预定重金属浓度范围的土壤样本;
[0009]步骤2:获取土壤样本的X射线荧光光谱,其中重金属元素的含量值利用化学方法标定,形 成样本光谱数据集,并将样本光谱数据集分成校正集和验证集;
[0010]步骤3:利用迭代保留信息法筛选出光谱中的强信息变量与弱信息变量;
[0011]步骤4:分别从变量区间选择算法、变量优化选择算法、变量统计选择算法和变量波段选择 算法中选出具有代表性的四种特征变量选择方法,在强信息变量与弱信息变量的基础上分别 构建基学习器进行训练、测试;
[0012]步骤5:将基学习器集成,构建元学习器,元学习器的输入是基学习器的输出,利用基学习 器的输出对元学习器进行训练、测试;
[0013]步骤6:将待检测土壤的光谱输入基学习器,依据元学习器得到待检测光谱的波长点,依据 得到的波长点判断分析土壤重金属的含量。
[0014]进一步地,变量区间选择算法和变量波段选择算法侧重于选择出对建模更重要的波段, 而且不容易受到无效波长点的干扰,因此将其作为一组进行训练,可提高训练效率,训练效 果比单独训练更好;变量统计选择算法与变量优化选择算法侧重于选择出出现频率更高的波 段,而且容易受到无效区间内波长点的干扰,因此将其作为一组进行训练,可提高训练效率, 训练效果比单独训练更好。
[0015]进一步地,步骤5中,选出的特征变量选择方法为区间偏最小二乘法、变量区间组合优 化算法、萤火虫算法和连续投影算法。
[0016]优选地,对基学习器进行分组训练,将区间偏最小二乘法对应的基学习器和区间组合优 化算法对应的基学习器作为一组进行训练,将萤火虫算法对应的基学习器和连续投影算法对 应的基学习器作为另一组进行训练。
[0017]所述利用迭代保留信息法筛选出光谱中的强信息变量与弱信息变量,具体包括:
[0018](a)对波长变量分类;
[0019]对每个波长变量计算包含和不包含该波长变量时的偏最小二乘法模型的RMSECV平均值, 计算得到平均值的差值DMEAN(Difference of mean values),并进行曼

惠特尼秩和检验,确 定该变量的类型;
[0020]在每次迭代中保留强信息变量和弱信息变量,直至波长变量中不包含无信息变量和干扰 变量为止;
[0021](b)逆向消元;
[0022]筛选出强信息变量和弱信息变量后,考虑每个波长变量与其它波长变量的交互作用,进 行逆向消元,使保留的波长变量的数量进一步减少,得到最优波长变量子集。
[0023]所述变量区间组合优化算法,包括以下步骤:
[0024]1)确定光谱区间划分数量、子模型的数量和子模型的比率;
[0025]将光谱划分为宽度大致相同的n个子区间,对每个光谱子区间分别建立偏最小二乘法模 型预测重金属含量;
[0026]观察比较不同数量的区间划分下的试验结果,将最小的均方根误差值对应的光谱区间划 分数量作为最优的子区间数量;
[0027]2)确定未进行宽度优化的波长区间;
[0028]2.1)子模型的生成,利用加权自举采样,生成M个不同波长区间随机组合形成的子集,每个 波长点初始采样权重均为1,M表示采样次数,一次采样中波长z被选中的概率p
z
的计算式 如下:
[0029][0030]式中w
z
、w
j
分别表示波长z、波长j的采样权重,e表示波长点的数量;
[0031]2.2)采用偏最小二乘法算法和5折交互检验的方式,计算每个区间组合子集对应的RMSECV 值;
[0032]2.3)从全部区间组合中提取比例为α的最优区间组合子集,并计算出这一部分区
间组合子集 对应RMSECV值的平均值,记作m
RMSECV
,α表示提取的区间组合占全部区间组合的比例;
[0033]2.4)统计每个区间的波长在最优区间组合子集中出现的数目,下一次迭代中第x个区间对应 的采样权重如下:
[0034][0035]式中f
x
表示第x个区间的波长在最优区间组合子集中出现的频次,k
best
表示提取的最优区间 组合的数目;
[0036]重复步骤2.1)至步骤2.4)进行循环迭代,直到m
RMSECV
出现上升,终止迭代;
[0037]2.5)将最后一次迭代中RMSECV值最小的那一组波长区间作为最终选中的波长区间。
[0038]所述萤火虫算法,包括以下步骤:
[0039](I)初始化,
[0040]在可行域中随机放置n个萤火虫,并赋予每个萤火虫的荧光素为l0,动态决策域为r0; 初始化步长s、领域阈值n
t
、荧光素消失率ρ、荧光素更新率γ、动态决策域更新率β、萤火 虫感知域r
s
和迭代次数Y;
[0041](II)更新萤火虫i的荧光素l本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于堆叠式模型的土壤重金属含量检测方法,其特征在于,所述方法通过堆叠式模型获取土壤样本光谱的波长点,根据波长点与重金属含量的对应关系得到土壤重金属含量,堆叠式模型包括堆叠的基学习器和元学习器,所述土壤重金属含量检测方法包括以下步骤:步骤1:采集土壤样品,配置预定重金属浓度范围的土壤样本;步骤2:获取土壤样本的X射线荧光光谱,其中重金属元素的含量值利用化学方法标定,形成样本光谱数据集,并将样本光谱数据集分成校正集和验证集;步骤3:利用迭代保留信息法筛选出光谱中的强信息变量与弱信息变量;步骤4:分别从变量区间选择算法、变量优化选择算法、变量统计选择算法和变量波段选择算法中选出具有代表性的四种特征变量选择方法,在强信息变量与弱信息变量的基础上分别构建基学习器进行训练、测试;步骤5:将基学习器集成,构建元学习器,元学习器的输入是基学习器的输出,利用基学习器的输出对元学习器进行训练、测试;步骤6:将待检测土壤的光谱输入基学习器,依据元学习器得到待检测光谱的波长点,依据得到的波长点判断分析土壤重金属的含量。2.根据权利要求1所述的基于堆叠式模型的土壤重金属含量检测方法,其特征在于,步骤5中,选出的特征变量选择方法为区间偏最小二乘法、变量区间组合优化算法、萤火虫算法和连续投影算法。3.根据权利要求1所述的基于堆叠式模型的土壤重金属含量检测方法,其特征在于,对基学习器进行分组训练,将区间偏最小二乘法对应的基学习器和区间组合优化算法对应的基学习器作为一组进行训练,将萤火虫算法对应的基学习器和连续投影算法对应的基学习器作为另一组进行训练。4.根据权利要求1所述的基于堆叠式模型的土壤重金属含量检测方法,其特征在于,所述利用迭代保留信息法筛选出光谱中的强信息变量与弱信息变量,具体包括:(a)对波长变量分类;对每个波长变量计算包含和不包含该波长变量时的偏最小二乘法模型的RMSECV平均值,计算得到平均值的差值,并进行曼

惠特尼秩和检验,确定该变量的类型;在每次迭代中保留强信息变量和弱信息变量,直至波长变量中不包含无信息变量和干扰变量为止;(b)逆向消元;筛选出强信息变量和弱信息变量后,考虑每个波长变量与其它波长变量的交互作用,进行逆向消元,使保留的波长变量的数量进一步减少,得到最优波长变量子集。5.根据权利要求1所述的基于堆叠式模型的土壤重金属含量检测方法,其特征在于,所述变量区间组合优化算法,包括以下步骤:1)确定光谱区间划分数量、子模型的数量和子模型的比率;将光谱划分为宽度相同的e个子区间,对每个光谱子区间分别建立偏最小二乘法模型预测重金属含量;观察比较不同数量的区间划分下的试验结果,将最小的均方根误差值对应的光谱区间划分数量作为最优的子区间数量;
2)确定未进行宽度优化的波长区间;2.1)子模型的生成,利用加权自举采样,生成M个不同波长区间随机组合形成的子集,每个波长点初始采样权重均为1,M表示采样次数,一次采样中波长z被选中的概率p
z
的计算式如下:式中w
z
、w
j...

【专利技术属性】
技术研发人员:任顺陆旻波任东安毅杨信廷王纪华
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1