基于可解释模型的土壤固碳驱动力识别方法技术

技术编号:39519011 阅读:13 留言:0更新日期:2023-11-25 18:57
本发明专利技术公开了一种基于可解释模型的土壤固碳驱动力识别方法

【技术实现步骤摘要】
基于可解释模型的土壤固碳驱动力识别方法、装置及介质


[0001]本专利技术涉及环境建模
,尤其涉及一种基于可解释模型的题目里土壤固碳驱动力识别方法及装置


技术介绍

[0003]研究土壤重金属

有机碳与社会经济因子之间的关系时,常用相关系数分析

回归分析

主成分分析以及其他多元统计方法,对土壤重金属

有机碳的关键因子进行估计,但传统的统计分析方法的准确性有待提高


技术实现思路

[0004]有鉴于此,本专利技术实施例的目的是提供一种基于可解释模型的土壤固碳驱动力识别方法及装置,对于确定土壤重金属

有机碳与驱动因子之间相互关系,可以提高结果的准确性

[0005]第一方面,本专利技术实施例提供了一种基于可解释模型的土壤固碳驱动力识别方法,包括以下步骤:
[0006]获取研究区域内土壤有机碳含量数据

土壤重金属含量数据以及驱动因子数据,并对所述土壤有机碳含量数据

所述土壤重金属含量数据以及所述驱动因子数据进行预处理及相关系数计算,得到与所述土壤有机碳和所述土壤重金属分别对应的若干个相关性显著的驱动因子;
[0007]将所述土壤重金属含量数据以及所述土壤有机碳含量数据分别作为若干个机器学习树模型的第一响应变量,将分别对应的若干个所述相关性显著的驱动因子作为若干个所述机器学习树模型的第一解释变量,根据所述第一响应变量和所述第一解释变量分别执行若干个所述机器学习树模型,并根据若干个所述机器学习模型的第一性能数据确定最优树模型;所述性能数据包括拟合优度和平均绝对误差;
[0008]分别以所述土壤重金属含量数据以及所述土壤有机碳含量数据作为第二响应变量,分别以各自对应的若干个所述相关性显著的驱动因子作为第二解释变量,基于所述最优树模型,采用可解释模型分别计算与所述土壤有机碳和所述土壤重金属对应的若干个所述相关性显著的驱动因子的平均绝对
SHAP
值,并根据所述平均绝对
SHAP
值确定所述土壤重金属含量数据与所述土壤有机碳含量数据的共同关键驱动因子;其中,所述可解释模型包括
TreeSHAP
模型;
[0009]将所述土壤有机碳含量数据作为第三响应变量,将所述土壤重金属含量数据与所述共同关键驱动因子作为第三解释变量,采用所述可解释模型确定所述共同关键驱动因子的第二性能数据,根据所述第二性能数据确定土壤有机碳含量

土壤重金属含量及驱动因子之间的相互关系;所述第二性能数据包括
SHAP

、SHAP
主效应值以及
SHAP
交互效应值

[0010]进一步,所述对所述土壤有机碳含量数据

所述土壤重金属含量数据以及所述驱动因子数据进行预处理,具体包括:
[0011]分别计算所述土壤有机碳含量数据

所述土壤重金属含量数据以及若干个所述驱动因子的数学期望值与标准差;
[0012]根据所述数学期望值与所述标准差确定异常数据,并将所述异常数据剔除;
[0013]对空缺数据进行填补,得到预处理后的研究数据

[0014]进一步,通过以下步骤计算得到相关性显著的驱动因子,具体包括:
[0015]计算所述土壤有机碳含量数据与所述驱动因子数据的第一相关系数,计算所述土壤重金属含量数据与所述驱动因子数据的第二相关系数;其中,所述第一相关系数以及所述第二相关系数包括显著性检验
p
值;
[0016]将所述第一相关系数以及所述第二相关系数分别与预设值进行比较;
[0017]将所述第一相关系数小于或等于所述预设值对应的驱动因子作为与所述土壤有机碳相关性显著的驱动因子,以及将所述第二相关系数小于或等于所述预设值对应的驱动因子作为与所述土壤重金属相关性显著的驱动因子

[0018]进一步,所述机器学习树模型包括第一模型

第二模型

第三模型以及第四模型,所述根据若干个机器学习树模型的第一性能数据确定最优树模型,具体包括:
[0019]根据所述各模型和所述响应变量确定各模型响应变量的拟合值,并计算所述响应变量的均值;
[0020]计算所述响应变量与所述各模型响应变量的拟合值的绝对差值的均值,作为各模型的所述平均绝对误差;
[0021]计算所述响应变量与所述各模型响应变量的拟合值的差值的第一平方和;
[0022]计算所述响应变量与所述响应变量的均值的差值的第二平方和;
[0023]计算所述第一平方和与所述第二平方和的比值,将所述比值与1的差值作为拟合优度;
[0024]根据所述平均绝对误差与所述拟合优度对若干个机器学习模型进行排序,确定最优树模型

[0025]进一步,所述
SHAP
值通过以下公式计算得到:
[0026][0027][0028]其中,为模型
f
输出在数据集上的期望值,
f(x
i
)

SHAP
值,
N
为驱动因子数量,
f
为最优树模型,
K
是所有
K
个输入变量的集合,
|N|
是非零条目的数据总数,是所有可能变量子集组合中的加权平均值,
f
x
(N)
为驱动因子集合在最优树模型的平均值,
f
x
(N∪{j}
为驱动因子集合与变量
j
在最优树模型的平均值

[0029]进一步,所述
SHAP
交互效应值通过以下公式计算得到:
[0030][0031]其中,
N
为驱动因子数量,为变量
a
和变量
j

SHAP
交互效应值,
K
是所有
K
个输入
变量的集合,
δ
aj
(N)

f
x
(N∪{a

j})

f
x
(N∪{a})

f
x
(N∪{j})+f
x
(N)

f
x
(N∪{j}
为驱动因子集合与变量
j
在最优树模型的平均值,
f
x
(N)
为驱动因子集合在最优树模型的平均值,
f
x
(N∪{a})
为驱动因子集合与变量
a
在最优树模型的平均值,
f
...

【技术保护点】

【技术特征摘要】
1.
一种基于可解释模型的土壤固碳驱动力识别方法,其特征在于,包括以下步骤:获取研究区域内土壤有机碳含量数据

土壤重金属含量数据以及驱动因子数据,并对所述土壤有机碳含量数据

所述土壤重金属含量数据以及所述驱动因子数据进行预处理及相关系数计算,得到与所述土壤有机碳和所述土壤重金属分别对应的若干个相关性显著的驱动因子;将所述土壤重金属含量数据以及所述土壤有机碳含量数据分别作为若干个机器学习树模型的第一响应变量,将分别对应的若干个所述相关性显著的驱动因子作为若干个所述机器学习树模型的第一解释变量,根据所述第一响应变量和所述第一解释变量分别执行若干个所述机器学习树模型,并根据若干个所述机器学习树模型的第一性能数据确定最优树模型;所述性能数据包括拟合优度和平均绝对误差;分别以所述土壤重金属含量数据以及所述土壤有机碳含量数据作为第二响应变量,分别以各自对应的若干个所述相关性显著的驱动因子作为第二解释变量,基于所述最优树模型,采用可解释模型分别计算与所述土壤有机碳和所述土壤重金属对应的若干个所述相关性显著的驱动因子的平均绝对
SHAP
值,并根据所述平均绝对
SHAP
值确定所述土壤重金属含量数据与所述土壤有机碳含量数据的共同关键驱动因子;其中,所述可解释模型包括
TreeSHAP
模型;将所述土壤有机碳含量数据作为第三响应变量,将所述土壤重金属含量数据与所述共同关键驱动因子作为第三解释变量,采用所述可解释模型确定所述共同关键驱动因子的第二性能数据,根据所述第二性能数据确定土壤有机碳含量

土壤重金属含量及驱动因子之间的相互关系;所述第二性能数据包括
SHAP

、SHAP
主效应值以及
SHAP
交互效应值
。2.
根据权利要求1所述的识别方法,其特征在于,所述对所述土壤有机碳含量数据

所述土壤重金属含量数据以及所述驱动因子数据进行预处理,具体包括:分别计算所述土壤有机碳含量数据

所述土壤重金属含量数据以及若干个所述驱动因子的数学期望值与标准差;根据所述数学期望值与所述标准差确定异常数据,并将所述异常数据剔除;对空缺数据进行填补,得到预处理后的研究数据
。3.
根据权利要求2所述的识别方法,其特征在于,通过以下步骤计算得到相关性显著的驱动因子,具体包括:计算所述土壤有机碳含量数据与所述驱动因子数据的第一相关系数,计算所述土壤重金属含量数据与所述驱动因子数据的第二相关系数;其中,所述第一相关系数以及所述第二相关系数包括显著性检验
p
值;将所述第一相关系数以及所述第二相关系数分别与预设值进行比较;将所述第一相关系数小于或等于所述预设值对应的驱动因子作为与所述土壤有机碳相关性显著的驱动因子,以及将所述第二相关系数小于或等于所述预设值对应的驱动因子作为与所述土壤重金属相关性显著的驱动因子
。4.
根据权利要求1所述的识别方法,其特征在于,所述机器学习树模型包括第一模型

第二模型

第三模型以及第四模型,所述根据若干个机器学习树模型的第一性能数据确定最优树模型,具体包括:根据所述各模型和所述响应变量确定各模型响应变量的拟合值,并计算所述响应变量
的均值;计算所述响应变量与所述各模型响应变量的拟合值的绝对差值的均值,作为各模型的所述平均绝对误差;计算所述响应变量与所述各模型响应变量的拟合值的差值的第一平方和;计算所述响应变量与所述响应变量的均值的差值的第二平方和;计算所述第一平方和与所述第二平方和的比值,将所述比值与1的差值作为拟合优度;根据所述平均绝对误差与所述拟合优度对若干个机器学习模型进行排序,确定最优树模型
。5.
根据权利要求1所述的识别方法,其特征在于,所述
SHAP
值通过以下公式计算得到:值通过以下公式计算得到:其中,为模型
f
输出在数据集上的期望值,
f(x
i
)

SHAP
值,
N
为驱动因子数量,
f
为最优树模型,
K
是所有
K
个输入变量的集合,
|N|
是非零条目的数据总数,是所有可能变量子集组合中的加权平均值,
f
x
(N)
为驱...

【专利技术属性】
技术研发人员:王琦徐亚菲郝冬梅李芳柏刘同旭
申请(专利权)人:广东省科学院生态环境与土壤研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1