System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于机器学习的湖库藻密度预测方法和装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>郑州大学专利>正文

一种基于机器学习的湖库藻密度预测方法和装置制造方法及图纸

技术编号:40540669 阅读:4 留言:0更新日期:2024-03-05 18:56
本发明专利技术提供了一种基于机器学习的湖库藻密度预测方法和装置,包括:基于肯德尔秩相关系数算法对所述藻密度影响因素数据进行筛选;基于十个算法分别构建与之对应的候选藻密度预测模型;基于评估指标评估候选藻密度预测模型的准确性;选取藻密度预测模型;进行可解释性分析得到影响藻密度的各个影响因素的重要性排序;基于排序将藻密度预测模型中依次输入1至N个藻密度影响因素得到评估指标随着输入藻密度影响因素个数的变化数据;确定使得藻密度预测模型表现最佳的藻密度影响因素的输入顺序以及确定达到最优预测精度所需的最少的藻密度影响因素的个数。减少开发同等功能的模型所需的自变量数量,降低了现场数据收集和水质监测的操作成本。

【技术实现步骤摘要】

本专利技术涉及机器学习,具体涉及一种基于机器学习的湖库藻密度预测方法和装置


技术介绍

1、有害藻华(hab)是一种自然现象。随着人类活动及气候变暖的加剧,hab已成为目前世界范围内最紧迫的水环境问题之一。作为近年来经济发展快速的国家,中国的内陆湖库水华现象频发,水体污染、生态系统失衡、渔业受损等问题随之而来。藻华的爆发受到各种环境因素的影响,且与藻华的关系呈非线性关系。

2、目前现有的藻华预警技术包括基于水质参数的藻华预警技术、遥感技术、生物分子技术等。然而,这些技术都有各自的适用范围和局限性。传统现场监测用采样分析时间长、精度和实时性较差等缺点。遥感图像监测虽然监测范围广且可以检测藻华时空分布,但对低藻密度情况效果较差。分子生物学监测方法具有精度高、实时性强的优点,但需要采集大量样本,技术和设备成本较高。

3、近年来,随着计算机技术、模型技术和数据采集方法的进步,基于机器学习方法的藻华预测模型得到了迅速发展。目前常用的机器学习模型包括支持向量机、决策树、随机森林等,它们捕捉变量之间的非平稳和非线性关系方面表现出色,并且能够有效处理实际水生态系统及其相关环境变量之间的复杂相互关系。然而,每个机器学习模型都具有其自身的优点和局限性,确定预测藻类量最有效的模型仍是未知的。因此,构建多个机器学习模型来优选最佳的预测模型更为有效。为了优化成本效益,确定实现预测性能所需的最少水质指标组合也格外关键,以在预测准确性和成本之间取得平衡。此外,尽管机器学习模型预测性能表现出色,但其有限的解释性,通常被称为“黑匣子”模型,对其进一步揭示藻类生长动态构成了制约。

4、上述问题是目前亟待解决的。


技术实现思路

1、本专利技术要克服现有技术的上述至少一个缺点,一方面,本专利技术提供了一种基于机器学习的湖库藻密度预测方法,所述方法包括:s1:获取藻密度的影响因素数据;s2:基于肯德尔秩相关系数算法对所述藻密度影响因素数据进行筛选;s3:基于支持向量回归算法、k最近邻算法、分类和回归树算法、梯度提升决策树算法、极端梯度提升算法、梯度提升机算法、分类提升算法、优化后的极端梯度提升算法、优化后的梯度提升机算法以及优化后的分类提升算法分别构建与之对应的候选藻密度预测模型;s4:将所述藻密度影响因素数据和藻密度数据划分为训练集和测试集;s5:基于评估指标评估所述候选藻密度预测模型的准确性生成评估结果;s6:基于所述评估结果从所述候选藻密度预测模型中选取藻密度预测模型为基于优化后的分类提升算法构建的藻密度预测模型;s7:基于所述训练集训练所述基于优化后的分类提升算法构建的藻密度预测模型;s8:对训练后的藻密度预测模型进行可解释性分析得到影响藻密度的各个影响因素的重要性排序;s9:基于所述藻密度的各个影响因素的重要性排序,将藻密度预测模型中依次输入1至n个藻密度影响因素,得到评估指标随着输入藻密度影响因素个数的变化数据;s10:基于所述变化数据确定使得所述藻密度预测模型表现最佳的藻密度影响因素的输入顺序以及确定达到最优预测精度所需的最少的藻密度影响因素的个数;s11:通过在所述训练后的藻密度预测模型中按照步骤s10中得到的藻密度影响因素的输入顺序以及藻密度影响因素的个数得到藻密度预测结果。

2、进一步的,筛选后的藻密度影响因素数据包括:水温、ph值、溶解氧、电导率、高锰酸盐指数、水浊度、氨氮、总氮、总磷、氮磷比和叶绿素。

3、进一步的,所述肯德尔秩相关系数算法包括:

4、

5、式中,nc为藻密度影响因素数据中一致性的数量,nd为藻密度影响因素数据中不一致性的数量,n为藻密度影响因素的个数。

6、进一步的,所述步骤s3包括:采用协方差矩阵适应进化策略对极端梯度提升算法、梯度提升机算法和分类提升算法分别进行模型参数优化生成优化后的极端梯度提升算法、优化后的梯度提升机算法和优化后的分类提升算法。

7、进一步的,所述评估指标包括:确定系数、均方根误差、平均绝对误差和对称平均绝对百分比误差;所述步骤s5包括:采用2至10折交叉验证法评估候选藻密度预测模型的泛化能力。

8、进一步的,所述步骤s8包括:s81:分别采用方差膨胀因子、shap、排列特征重要性和特征重要性对训练后的藻密度预测模型进行可解释性分析得到藻密度的各个影响因素的重要性排序。

9、进一步的,所述步骤s81包括:s811:计算筛选后的藻密度影响因素数据对应的shap值的绝对值均值、vif值、fi值的绝对值均值以及pfi值的绝对值均值;s812:基于计算结果的大小确定不同藻密度影响因素对预测结果的影响程度;s813:基于影响程度得到藻密度的各个影响因素的重要性排序。

10、进一步的,所述方法还包括:选取shap值均值最大的m个藻密度影响参数作为关键特征参数;分析随着关键特征参数的变化藻密度的变化趋势,获得其阈值;基于所述阈值确定藻类生长趋势的变化。

11、进一步的,所述方法还包括:优化所述藻密度预测模型,包括:设定藻密度的目标值,将藻密度影响因素导入训练后的藻密度预测模型生成预测结果;计算shap值,基于计算的shap值通过调整藻密度的影响因素,使预测结果达到藻密度的目标值。

12、第二方面,本专利技术提供了一种基于机器学习的湖库藻密度预测装置,所述装置包括:获取模块,适用于获取藻密度的影响因素数据;筛选模块,适用于基于肯德尔秩相关系数算法对所述藻密度影响因素数据进行筛选;构建候选藻密度预测模型模块,适用于基于支持向量回归算法、k最近邻算法、分类和回归树算法、梯度提升决策树算法、极端梯度提升算法、梯度提升机算法、分类提升算法、优化后的极端梯度提升算法、优化后的梯度提升机算法以及优化后的分类提升算法分别构建与之对应的候选藻密度预测模型;划分模块,适用于将所述藻密度影响因素数据和藻密度数据划分为训练集和测试集;生成评估结果模块,适用于基于评估指标评估所述候选藻密度预测模型的准确性生成评估结果;构建藻密度预测模型模块,适用于基于所述评估结果从所述候选藻密度预测模型中选取藻密度预测模型为基于优化后的分类提升算法构建的藻密度预测模型;训练模块,适用于基于所述训练集训练所述基于优化后的分类提升算法构建的藻密度预测模型;分析模块,适用于对训练后的藻密度预测模型进行可解释性分析得到影响藻密度的各个影响因素的重要性排序;生成变化数据模块,适用于基于所述藻密度的各个影响因素的重要性排序,将藻密度预测模型中依次输入1至n个藻密度影响因素,得到评估指标随着输入藻密度影响因素个数的变化数据;确定模块,适用于基于所述变化数据确定使得所述藻密度预测模型表现最佳的藻密度影响因素的输入顺序以及确定达到最优预测精度所需的最少的藻密度影响因素的个数;预测模块,适用于通过在所述训练后的藻密度预测模型中按照步骤s10中得到的藻密度影响因素的输入顺序以及藻密度影响因素的个数得到藻密度预测结果。

13、又一方面,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有本文档来自技高网...

【技术保护点】

1.一种基于机器学习的湖库藻密度预测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于机器学习的湖库藻密度预测方法,其特征在于,筛选后的藻密度影响因素数据包括:水温、pH值、溶解氧、电导率、高锰酸盐指数、水浊度、氨氮、总氮、总磷、氮磷比和叶绿素。

3.根据权利要求1所述的基于机器学习的湖库藻密度预测方法,其特征在于,所述肯德尔秩相关系数算法包括:

4.根据权利要求1所述的基于机器学习的湖库藻密度预测方法,其特征在于,所述步骤S3包括:

5.根据权利要求1所述的基于机器学习的湖库藻密度预测方法,其特征在于,所述评估指标包括:确定系数、均方根误差、平均绝对误差和对称平均绝对百分比误差;

6.根据权利要求1所述的基于机器学习的湖库藻密度预测方法,其特征在于,所述步骤S8包括:

7.根据权利要求6所述的基于机器学习的湖库藻密度预测方法,其特征在于,所述步骤S81包括:

8.根据权利要求1所述的基于机器学习的湖库藻密度预测方法,其特征在于,所述方法还包括:

9.根据权利要求1所述的基于机器学习的湖库藻密度预测方法,其特征在于,所述方法还包括:

10.一种基于机器学习的湖库藻密度预测装置,其特征在于,所述装置包括:

...

【技术特征摘要】

1.一种基于机器学习的湖库藻密度预测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于机器学习的湖库藻密度预测方法,其特征在于,筛选后的藻密度影响因素数据包括:水温、ph值、溶解氧、电导率、高锰酸盐指数、水浊度、氨氮、总氮、总磷、氮磷比和叶绿素。

3.根据权利要求1所述的基于机器学习的湖库藻密度预测方法,其特征在于,所述肯德尔秩相关系数算法包括:

4.根据权利要求1所述的基于机器学习的湖库藻密度预测方法,其特征在于,所述步骤s3包括:

5.根据权利要求1所述的基于机器学习的湖库藻密度预测方法,其特征在于,...

【专利技术属性】
技术研发人员:陶亦文任景莉崔昊
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1