一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法技术

技术编号:37766428 阅读:39 留言:0更新日期:2023-06-06 13:26
本发明专利技术公开了一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,包括构建初始样本训练集;利用初始样本训练集对集成学习模型进行训练和验证,优选预测结果更好的集成学习模型,结合其本身的特征重要度算法进行特征重要度计算;将择优后的模型及其最优参数组合与SHAP方法融合,基于初始样本训练集计算每个特征所有个体的SHAP值;并基于个体SHAP值进一步确定对土壤含水量影响最大的特征区间;按照输入特征的重要度排序对比几种缺省因子方案下模型预测土壤含水量的精度。优点是:不仅能够降低土壤水分的预测成本,显著提升了土壤含水量的预测精度,更增添该预测模型的可解释性,也可以为缺省因子情况下模型的输入因子选择提供参考借鉴。入因子选择提供参考借鉴。入因子选择提供参考借鉴。

【技术实现步骤摘要】
一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法


[0001]本专利技术涉及土壤含水量预测
,尤其涉及一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法。

技术介绍

[0002]土壤含水量是区域水循环、农业灌溉管理和气候变化的特征要素之一,其在水文、气象、农业等学科中也具有重要的作用,其对作物的生长发育至关重要。目前主要的土壤水分预测方法有经验模型法、土壤水动力学法、时间序列模型法以及机器学习算法。近年来,随着计算机技术的快速发展,机器学习算法已成为一种重要的预测土壤含水量的手段。机器学习模型由于不需要建立精确的数学模型,就能实现从输入端到输出端的非线性映射,因此在土壤水分预测中得到了广泛应用。
[0003]土壤含水量主要受温度、降雨、植被类型、太阳辐射、用水管理等诸多因素所影响,除此之外,土壤含水量还与土壤的理化性质有关,如土壤质地、土壤容重和土壤孔隙度等。由于地形、时间和资金的限制,在实际情况中不能大范围高密度的布置站点测量土壤水分。传统水分预测模型需要输入的参数基本上是确定的,如果缺少其中的部分输入本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:包括如下步骤,S1、初始样本训练集构建:基于目标土壤区域的野外实测墒情站点数据和气象站点数据构建样本量为m、特征数为n的初始样本训练集;S2、集成学习模型的训练与验证:将预处理后的初始样本训练集划分为训练集和测试集,利用训练集训练GBM模型和RF模型,并在训练过程中结合多种参数调优方法进行超参数随机匹配择优,确定GBM模型和RF模型的最优参数组合;并利用测试集验证GBM模型和RF模型的最优参数组合;S3、特征重要度计算:对比验证后的在相应最优参数组合下的GBM模型和RF模型的土壤含水量预测结果,将预测结果更好的模型利用其自身特征重要度算法计算各输入特征的特征重要度,并基于计算结果对各输入特征进行特征重要度排序;S4、个体SHAP值计算:将步骤S3中选出的模型及其最优参数组合与SHAP方法融合,基于初始样本训练集计算年、季尺度下每个特征所有个体的SHAP值;S5、影响最大的特征区间确定:基于个体SHAP值的结果选择模型的最适季节,提取每个特征中SHAP值大于预设阈值的个体,并统计每个特征的区间,将统计后的区间进行划分,计算每个区间的SHAP均值,并将每个区间的SHAP均值与原始区间的SHAP均值进行对比,基于对比结果确定对土壤含水量影响最大的特征区间。2.根据权利要求1所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:步骤S1具体包括如下内容,S11、针对目标土壤区域,以墒情站点的野外实测墒情数据和气象站点的气象数据作为数据源,基于数据的经纬度以及时间对野外实测墒情数据和气象数据进行匹配处理,实现野外实测墒情数据和气象数据的同步;S12、获取各个站点对应的野外实测墒情数据和气象数据,并剔除其中的空值数据;并将气象数据作为初始输入特征,实测土壤含水量作为期望输出特征,构建样本量为m,特征个数为n的初始样本训练集Dataset,Dataset=m
×
n;S13、对初始样本训练集中的数据进行归一化处理,以实现初始样本训练集的预处理。3.根据权利要求2所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:墒情站点所使用的土壤水分传感器长期埋设于野外大田的测点中,实时接收间隔为1小时的土壤墒...

【专利技术属性】
技术研发人员:杨晓静付平凡屈艳萍吕娟李云霄董蓉蓉苏志诚马苗苗张学君高辉陈茜茜
申请(专利权)人:中国水利水电科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1