【技术实现步骤摘要】
基于可信度的随机森林土壤重金属风险评价方法及系统
本专利技术属于人工智能领域,主要涉及基于可信度的随机森林土壤重金属风险评价方法。
技术介绍
土壤无机污染物中以重金属比较突出,主要是由于重金属不能为土壤微生物所分解,而易于积累.转化为毒性更大的甲基化合物,甚至有的通过食物链以有害浓度在人体内蓄积,严重危害人体健康。土壤重金属污染严重威胁生态系统和农产品安全。目前有研究将随机森林算法用于土壤重金属含量影响因子评价,例如申请号为CN201610997260.X的专利文献。但是,随机森林算法的分类精度还有不足:随机森林算法(RandomForest,RF)包含两个部分,分别是Bagging算法(Bootstrapaggregating,引导聚集算法)和随机子空间算法(RandomSubspaceMethod,RSM)。Bagging算法使用有放回采样法从训练集中得到子训练集,并对子训练集训练出基学习器,对结果进行投票,而获得投票最多的作为输出的结果。而随机子空间算法,是对特征集进行无替换的随机采样形成特征子集,并使 ...
【技术保护点】
1.一种基于可信度的随机森林土壤重金属风险评价方法,包括以下步骤:/n步骤1,数据预处理,包括对原始数据集进行预处理,得到未标记的数据集;然后进行数据标记,包括采用土壤污染评价方法标记数据集中样本是否有污染风险;/n步骤2,数据集划分,包括对数据集按不同类别所占比例分层采样,划分训练集和测试集;/n步骤3,模型训练,包括使用基于真阳率加权投票的随机森林算法对训练集进行学习得到模型,将测试集输入模型得到风险评价结果;使用贝叶斯优化算法以准确率为优化目标,找到使准确率最高的参数组合;/n所述基于真阳率加权投票的随机森林算法实现如下,/n对训练集使用子装袋算法,强制选择所有的少数 ...
【技术特征摘要】
1.一种基于可信度的随机森林土壤重金属风险评价方法,包括以下步骤:
步骤1,数据预处理,包括对原始数据集进行预处理,得到未标记的数据集;然后进行数据标记,包括采用土壤污染评价方法标记数据集中样本是否有污染风险;
步骤2,数据集划分,包括对数据集按不同类别所占比例分层采样,划分训练集和测试集;
步骤3,模型训练,包括使用基于真阳率加权投票的随机森林算法对训练集进行学习得到模型,将测试集输入模型得到风险评价结果;使用贝叶斯优化算法以准确率为优化目标,找到使准确率最高的参数组合;
所述基于真阳率加权投票的随机森林算法实现如下,
对训练集使用子装袋算法,强制选择所有的少数类样本,仅对多数类样本有放回抽样,得到子训练集St′,,t=1,2,…,T,T为基学习器的数量;
对子训练集St随机抽取得到最终子训练集St′,并训练得到基学习器ht,t=1,2,…,T;
将测试集输入所有基学习器,根据基学习器的分类结果计算真阳率以及每个基学习器的权重;
对于测试集中的样本,依据每个基学习器的权重,计算得出最终分类结果;
步骤4,利用训练好的模型进行土壤重金属风险评价评估。
2.根据权利要求1所述基于可信度的随机森林土壤重金属风险评价方法,其特征在于:步骤1中对数据集中样本进行标记时,是采用二分类标记方式。
3.根据权利要求1或2所述基于可信度的随机森林土壤重金属风险评价方法,其特征在于:步骤2中数据集划分是按照每种类别样本数的比例进行分层采样划分。
4.根据权利要求1或2所述基于可信度的随机森林土壤重金属风险评价方法,其特征在于:步骤3中,根据基学习器的分类结果计算真阳率以及每个基学习器的权重,实现方式如下,
其中,TP表示风险样本中被归类为风险样本的数量,FN表示风险样本中被归类为非风险样本的数量,TPR表示真阳率;
其中,TPR(i)表示第i个基学习器的可信度,TPR(j)表示第j个基学习器的可信度,weigt(i)表示第i个基学习器的权重。
对于测试集中的样本x,依据得到的权重,计算得出最终分类结果H(x)如下,
其中,weight(t)表示第t个基学习器的权重,ht(x)表示第t个基学习器的分类结果,分类结果用y=1或y=-1表示,sign()表示符号函数。
5.根据权利要求1或2所述基于可信度的随机森林土壤重金属风险评价方法,其特征在于:步骤3中使用贝叶斯优化算法以准确率为优化目标,找到使准确率最高的参数组合,实现方式如下,
使用贝叶斯优化算法以最大化风险评价模型的准确率为目标,找到最优超参数组合,准确率Acc计算如下,
其中,TP...
【专利技术属性】
技术研发人员:张聪,喻子言,王恒,张俊杰,曹文琪,胡殿涛,
申请(专利权)人:武汉轻工大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。