当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于多元回归和随机森林的水质监测指标预测方法技术

技术编号:37553910 阅读:40 留言:0更新日期:2023-05-15 07:38
本发明专利技术公开了一种基于多元回归和随机森林的水质监测指标预测方法。该发明专利技术首先基于水质监测的各类监测指标,利用Pearson相关系数对监测指标间的相关程度进行分析,从而得到各监测指标间的相关系数,进一步通过多元线性回归算法得到高度相关的参数指标间的统计关系,利用回归方程的形式表示监测变量间的因果关系,最后通过随机森林算法利用水质监测中的自变量指标实现对因变量指标的预测,达到减少监测项目从而降低监测成本的目的。本发明专利技术能有效提高水质监测的效率以及降低监测指标项目成本,且具有预测准确度高、泛化能力强的特点。泛化能力强的特点。泛化能力强的特点。

【技术实现步骤摘要】
一种基于多元回归和随机森林的水质监测指标预测方法


[0001]本专利技术涉及大数据和机器学习领域,特别涉及一种基于多元回归和随机森林的水质监测指标预测方法。

技术介绍

[0002]水质监测作为维护水环境健康的重要手段,对人民生活的需求以及国家生态文明建设等方面起到至关重要的作用。作为现代化社会中不可或缺的水环境有效保护手段之一,水质监测的应用越发广泛,朝着信息化、自动化的方向发展成为必然趋势。由于水质监测指标种类繁多,水质监测数据量大,故水质监测指标的数据具有很高的利用价值。从大量的水质监测指标数据中提取有价值的信息,找寻数据之间的本质关系,基于相关联的信息进行预测,能够有效提高水质监测的信息利用率,降低监测成本。
[0003]近年来我国水质监测发展迅速,对水质状况进行监测时往往监测的指标种类众多,监测成本较高,且信息量巨大难以从中提取有效信息,对数据进行有效分析势在必行。为有效降低监测成本对监测指标项目进行合理降维,利用Pearson相关系数对指标间进行相关性分析的优点是能够对变量关系间的强弱进行有效度量,但并未对变量之间的关系进行固本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多元回归和随机森林的水质监测指标预测方法,其特征在于,所述方法包括如下步骤:(1)获取水质监测项目监测过程中所用的各类监测指标数据;(2)对水质监测的各类监测指标数据进行清洗,剔除无效、异常数据;(3)利用Pearson相关系数对清洗后的水质监测指标数据进行各类监测指标变量间的相关程度分析,得到各个水质监测指标间的相关系数,对影响水质的主导因素进行识别;Pearson相关系数的公式表达为:式中,n为样本量,x
i
和y
i
分别为两监测指标的变量值,和分别为x
i
和y
i
样本的平均值;(4)采用显著性检验的方法对Pearson相关系数进行检验,验证各监测指标间的相关性非偶然因素引起,所得结果能够代表总体指标数据上的相关程度;(5)采用构建多元线性回归方程的方法进一步得到监测指标间相关程度的具体形式。通过回归方程的形式,进一步分析水质指标间的统计关系;(6)对步骤(5)得到的多元线性回归方程,剔除回归系数异常以及不显著的自变量;重复步骤(5)至(6),直至回归系数均符合要求,此时的多元线性回归方程得以成立;(7)对整个数据集进行拆分,得到训练集和测试集;其中训练集用于训练随机森林回归模型,测试集用于模型预测效果的评估;(8)建立随机森林回归模型,采用5折交叉验证方法利用训练集对模型进行训练;(9)利用测试集对随机森林回归模型进行预测效果评价,模型的评价指标采用均方根误差RMSE、平均绝对误差MAE和确定系数R2这三种指标;确定系数的公式表达为:式中,n为数据集大小,y为待拟合数值,为y
i
样本的平均值,为拟合值;(10)不断调整随机森林回归模型中的超参数决策树的数量以及树的最大深度以获取最佳模型;重复步骤(8)至(10),使得随机森林回归模型的确定系数R2的值满足于最接近于1的标准;(11)根据训练得到的最佳随机森林回归模...

【专利技术属性】
技术研发人员:李旭杰史灵李浩天穆营利徐缘汤静刘春燕
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1