一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法技术

技术编号:37766428 阅读:35 留言:0更新日期:2023-06-06 13:26
本发明专利技术公开了一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,包括构建初始样本训练集;利用初始样本训练集对集成学习模型进行训练和验证,优选预测结果更好的集成学习模型,结合其本身的特征重要度算法进行特征重要度计算;将择优后的模型及其最优参数组合与SHAP方法融合,基于初始样本训练集计算每个特征所有个体的SHAP值;并基于个体SHAP值进一步确定对土壤含水量影响最大的特征区间;按照输入特征的重要度排序对比几种缺省因子方案下模型预测土壤含水量的精度。优点是:不仅能够降低土壤水分的预测成本,显著提升了土壤含水量的预测精度,更增添该预测模型的可解释性,也可以为缺省因子情况下模型的输入因子选择提供参考借鉴。入因子选择提供参考借鉴。入因子选择提供参考借鉴。

【技术实现步骤摘要】
一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法


[0001]本专利技术涉及土壤含水量预测
,尤其涉及一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法。

技术介绍

[0002]土壤含水量是区域水循环、农业灌溉管理和气候变化的特征要素之一,其在水文、气象、农业等学科中也具有重要的作用,其对作物的生长发育至关重要。目前主要的土壤水分预测方法有经验模型法、土壤水动力学法、时间序列模型法以及机器学习算法。近年来,随着计算机技术的快速发展,机器学习算法已成为一种重要的预测土壤含水量的手段。机器学习模型由于不需要建立精确的数学模型,就能实现从输入端到输出端的非线性映射,因此在土壤水分预测中得到了广泛应用。
[0003]土壤含水量主要受温度、降雨、植被类型、太阳辐射、用水管理等诸多因素所影响,除此之外,土壤含水量还与土壤的理化性质有关,如土壤质地、土壤容重和土壤孔隙度等。由于地形、时间和资金的限制,在实际情况中不能大范围高密度的布置站点测量土壤水分。传统水分预测模型需要输入的参数基本上是确定的,如果缺少其中的部分输入量,将严重影响模型的预测结果,而实际应用,多数参数很难获得,使模型难以应用。
[0004]而且,虽然机器学习在预测土壤含水量上的应用较多,但由于机器学习其本身是黑箱模型这一特性,建立的预测模型并没有得到很好的解释,集成模型虽然可以从总体上将各个特征进行重要度排序,但却无法解释输入特征个体变化对于土壤含水量的贡献,因此无法精确判断因素的哪些区间对于土壤含水量的影响最大,最终导致无法实现高精度、可解释的实现土壤含水量预测。

技术实现思路

[0005]本专利技术的目的在于提供一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,从而解决现有技术中存在的前述问题。
[0006]为了实现上述目的,本专利技术采用的技术方案如下:
[0007]一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,包括如下步骤,
[0008]S1、初始样本训练集构建:
[0009]基于目标土壤区域的野外实测墒情站点数据和气象站点数据构建样本量为m、特征数为n的初始样本训练集;
[0010]S2、集成学习模型的训练与验证:
[0011]将预处理后的初始样本训练集划分为训练集和测试集,利用训练集训练GBM模型和RF模型,并在训练过程中结合多种参数调优方法进行超参数随机匹配择优,确定GBM模型和RF模型的最优参数组合;并利用测试集验证GBM模型和RF模型的最优参数组合;
[0012]S3、特征重要度计算:
[0013]对比验证后的在相应最优参数组合下的GBM模型和RF模型的土壤含水量预测结果,将预测结果更好的模型利用其自身特征重要度算法计算各输入特征的特征重要度,并基于计算结果对各输入特征进行特征重要度排序;
[0014]S4、个体SHAP值计算:
[0015]将步骤S3中选出的模型及其最优参数组合与SHAP方法融合,基于初始样本训练集计算年、季尺度下每个特征所有个体的SHAP值;
[0016]S5、影响最大的特征区间确定:
[0017]基于个体SHAP值的结果选择模型的最适季节,提取每个特征中SHAP值大于预设阈值的个体,并统计每个特征的区间,将统计后的区间进行划分,计算每个区间的SHAP均值,并将每个区间的SHAP均值与原始区间的SHAP均值进行对比,基于对比结果确定对土壤含水量影响最大的特征区间。
[0018]优选的,步骤S1具体包括如下内容,
[0019]S11、针对目标土壤区域,以墒情站点的野外实测墒情数据和气象站点的气象数据作为数据源,基于数据的经纬度以及时间对野外实测墒情数据和气象数据进行匹配处理,实现野外实测墒情数据和气象数据的同步;
[0020]S12、获取各个站点对应的野外实测墒情数据和气象数据,并剔除其中的空值数据;并将气象数据作为初始输入特征,实测土壤含水量作为期望输出特征,构建样本量为m,特征个数为n的初始样本训练集Dataset,Dataset=m
×
n;
[0021]S13、对初始样本训练集中的数据进行归一化处理,以实现初始样本训练集的预处理。
[0022]优选的,墒情站点所使用的土壤水分传感器长期埋设于野外大田的测点中,实时接收间隔为1小时的土壤墒情数据,并基于TDR时域反射原理对不同深度的土壤测定土壤体积含水量。
[0023]优选的,步骤S2中,针对目标土壤区域的所有站点数据,按照预设的分配原则进行训练集和测试集的划分。
[0024]优选的,步骤S2中,利用GridSearchCV方法和optuna方法对GBM模型和RF模型的相关参数进行综合随机匹配择优,以获取各模型的最优参数组合。
[0025]优选的,GBM模型在进行参数匹配择优时需要择优的参数包括学习率、损失函数、决策树的数量、决策树的深度和建立决策树时选择的最大特征数目;RF模型在进行参数匹配择优时需要择优的决策树的数量、决策树的深度和建立决策树时选择的最大特征数目。
[0026]优选的,在利用测试集验证GBM模型和RF模型的最优参数组合时,以平均绝对误差、决定系数和均方根误差作为评价指标,平均绝对误差和均方根误差越小、决定系数越大,则表示最优参数组合的对土壤含水量的预测结果越好。
[0027]优选的,步骤S4中,SHAP方法通过计算每个特征对预测值的贡献来解释特征,其所使用的SHAP值能够定量化表征各个特征对预测值的贡献,SHAP值越大表示该特征对于预测值的贡献越大。
[0028]优选的,步骤S5中,将统计后的区间进行2等分并分别计算各个区间的SHAP均值,比较各个区间的SHAP均值与原始区间SHAP均值之间的大小,最终确定各站点对土壤含水量
贡献最大的区间。
[0029]优选的,基于S3中获取的特征重要度排序,由低到高依次去除相应特征,并利用模型进行土壤含水量预测,并基于预测结果确定相应输入特征缺省时,模型对土壤含水量预测的精度,进而为输入特征缺省时,模型的输入特征选择提供参考。
[0030]本专利技术的有益效果是:1、本专利技术方法结合了机器学习和可解释模型的方法,就土壤含水量的预测解释进行了优化改进;不仅能够借助集成学习的方法获取高精度的土壤含水量预测结果,而且基于重要度算法制定不同缺省因子下的方案,并比较模型在不同方案下预测土壤水分的精度,从而在输入因子缺省时,为模型输入因子的选择提供参考借鉴。2、本专利技术方法将SHAP方法与集成学习模型融合定量评估集成学习模型输入变量的贡献程度,并制定的区间划分规则识别特征敏感阈值区间,为各输入要素对土壤含水量的定量精细化影响提供技术指导。这种混合技术的突破为区域内的土壤水分预测和解释提供技术支撑,能够降低土壤水分的预测成本,显著提升土壤含水量的预测精度,更增添该预测模型的可解释性,具有广阔的工业化应用前景。
附图说明
[0031]图1是本专利技术实施例中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:包括如下步骤,S1、初始样本训练集构建:基于目标土壤区域的野外实测墒情站点数据和气象站点数据构建样本量为m、特征数为n的初始样本训练集;S2、集成学习模型的训练与验证:将预处理后的初始样本训练集划分为训练集和测试集,利用训练集训练GBM模型和RF模型,并在训练过程中结合多种参数调优方法进行超参数随机匹配择优,确定GBM模型和RF模型的最优参数组合;并利用测试集验证GBM模型和RF模型的最优参数组合;S3、特征重要度计算:对比验证后的在相应最优参数组合下的GBM模型和RF模型的土壤含水量预测结果,将预测结果更好的模型利用其自身特征重要度算法计算各输入特征的特征重要度,并基于计算结果对各输入特征进行特征重要度排序;S4、个体SHAP值计算:将步骤S3中选出的模型及其最优参数组合与SHAP方法融合,基于初始样本训练集计算年、季尺度下每个特征所有个体的SHAP值;S5、影响最大的特征区间确定:基于个体SHAP值的结果选择模型的最适季节,提取每个特征中SHAP值大于预设阈值的个体,并统计每个特征的区间,将统计后的区间进行划分,计算每个区间的SHAP均值,并将每个区间的SHAP均值与原始区间的SHAP均值进行对比,基于对比结果确定对土壤含水量影响最大的特征区间。2.根据权利要求1所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:步骤S1具体包括如下内容,S11、针对目标土壤区域,以墒情站点的野外实测墒情数据和气象站点的气象数据作为数据源,基于数据的经纬度以及时间对野外实测墒情数据和气象数据进行匹配处理,实现野外实测墒情数据和气象数据的同步;S12、获取各个站点对应的野外实测墒情数据和气象数据,并剔除其中的空值数据;并将气象数据作为初始输入特征,实测土壤含水量作为期望输出特征,构建样本量为m,特征个数为n的初始样本训练集Dataset,Dataset=m
×
n;S13、对初始样本训练集中的数据进行归一化处理,以实现初始样本训练集的预处理。3.根据权利要求2所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:墒情站点所使用的土壤水分传感器长期埋设于野外大田的测点中,实时接收间隔为1小时的土壤墒...

【专利技术属性】
技术研发人员:杨晓静付平凡屈艳萍吕娟李云霄董蓉蓉苏志诚马苗苗张学君高辉陈茜茜
申请(专利权)人:中国水利水电科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1