一种基于随机森林集成的河流浊度软测量方法技术

技术编号:24758170 阅读:45 留言:0更新日期:2020-07-04 09:36
一种基于随机森林集成的河流浊度软测量方法属于水体环境保护领域和机器学习领域。本发明专利技术利用免费提供高光谱遥感数据的Google地球引擎,建立了一种基于随机森林集合的河流浑浊度测量模型。通过充分利用每个光谱及其调谐的光谱信息,利用新提出的全组合子空间方法,生成所有可能的基随机森林学习器。再利用新提出的基于误差最小化的剪枝算法,根据动态阈值循环去除有害基随机森林学习器。最后采用正则化线性回归加权平均法,融合有益基随机森林学习器,得到河流浊度的最终测量结果。本发明专利技术较现有方法在预测河流浊度和数据来源难易程度上有明显提升,可以协助政府进行水污染防治和监测等。

A soft sensing method of river turbidity based on random forest ensemble

【技术实现步骤摘要】
一种基于随机森林集成的河流浊度软测量方法
本专利技术利用免费提供高光谱遥感数据的GoogleEarthEngine(GEE)平台,建立了一种基于随机森林集成的河流浊度软测量方法。通过充分利用每个光谱及其调谐的光谱信息,利用新提出的全组合子空间方法,生成所有可能的基随机森林学习器。再利用新提出的基于误差最小化的剪枝算法,根据动态阈值循环去除有害基随机森林学习器。最后采用正则化线性回归加权平均法,融合有益基随机森林学习器,得到河流浊度的最终测量结果。基于随机森林集成学习器的河流浊度测量方法属于水体环境保护领域和机器学习领域。
技术介绍
随着全球人口的快速增长和经济的高速发展,水资源的污染和短缺对我们日常生活中的水安全造成了越来越严重的影响。在许多国家和地区,仍然存在将大量未经处理的工业废水直接排入河流或补充地下水的现象,这造成了严重的水体污染问题。这是极其危险的,因为如果水受到污染,不及时净化,很可能造成巨大的风险,例如导致大规模的传染病爆发,进而影响生物生存。此外,水污染对生态环境也产生了重要影响。因此,建立一套有效的水污染防治监测体系已迫在眉睫。浊度是一个重要的水质评价指标,特别是对于饮用水、烹饪水和高标准工业用水。浊度本质上是指水中悬浮物(如沙、土、无机物和有机物、微生物和胶体物质等)对光透射的阻碍程度。悬浮物,特别是微生物,会严重危害人们的健康。此外,河流的浊度会改变山间河流和海洋的反射率,这可能导致河流表面温度的变化,破坏水生生态系统的平衡。河流的浊度随时间变化很大,主要受以下因素的影响,包括水流速度和水量、河床地形、天气条件以及工业和城镇生活污水。因此,对浊度监测的研究具有十分重要的意义,特别是在生态安全评价、船舶安全管理和饮用水处理等方面的分析上。现有对河流浊度测量方法主要是基于廉价性和易用性的接触式浊度传感器进行测量,其在早期的浊度检测中得到了广泛的应用。然而,基于传感器的浊度测量需要进行现场水样采集和随后的实验室分析,这使得基于传感器的浊度测量方法劳动力需求大且成本高昂。更重要的是,基于传感器的河流浊度监测方法还存在着灵活性差的缺点,如若采用基于传感器的方法来完全覆盖整个河流进行监测是非常不合理的。针对现有方法所存在的种种不足,本专利技术基于随机森林的方法提出,主要分为三阶段实现。首先,以著名的随机森林方法的为基础,区别于算法中的随机子空间特征选取过程,设计了一种新的全组合子空间方法来生成所有可能的特征组合,以此来训练基随机森林学习器。其次,为了进一步选出所有组合中对浊度预测有用的部分,提出了一种基于误差最小化的循环剪枝算法。根据误差的动态阈值去除有害基随机森林学习器,以保留那些与浊度值高度相关的基随机森林学习器。最后,采用正则化线性回归加权平均法对所有保留的有益基随机森林学习器的浊度预测结果进行融合,进而得到河流浊度的最终测量结果。本专利技术较之现有的方法在预测误差和数据来源的难易程度上有明显的提升。
技术实现思路
通过GoogleEarthEngine(GEE)平台获得的高光谱遥感数据由13个波段组成,可以充分反映河流的浊度。然而,迄今还没有明确的证据表明哪些波段或它们的组合与河流浊度有很强的相关性,以及如何有效地融合它们的问题。为了解决这一问题,我们将收集到河流浊度的高光谱遥感图像作为输入的训练样本,其波段作为输入特征,提出了一种基于随机森林集成的河流浑浊度测量的新方法RFE-GEE方法。我们提出的RFE-GEE方法检测河流浊度的步骤如下:(1)提出新的全组合子空间方法来提取所有样本特征组合,从而构建随机森林的基学习器传统的随机森林算法首先是建立多个基学习器,并将它们的预测结果合并在一起以获得更准确和稳定的预测。所以,第一步通常是利用随机子空间方法挑选每一个基学习器的输入特征,从而决定随机森林的基学习器的个数。而随机子空间作为一种流行的集成方法,巧妙地融合了自举和聚合两种方法的优点,可以随机生成一些与河流浊度高度相关的正确特征组,为河流浊度软测量提供了一个很好的解决方案。然而,随机子空间的随机性太高,无法满足河流浊度监测的需求。因此,利用随机子空间的思想,本专利技术提出了一种新的特征选择集成算法—全组合子空间,主要用于实现特征的筛选。全组合子空间就是将所有的特征进行排列组合。再将每一种组合方式作为输入分别构建基学习器。本文是将河流浊度的高光谱图像作为输入样本,每个样本有13个波段作为13个输入特征。将13个输入特征进行排列组合,共有8191种组合方式。每一种组合作为每一个基学习器的输入特征,共构建8191个基学习器。(2)基于误差最小化剪枝算法剔除有害基随机森林学习器为了对上述产生的8191个基随机森林学习器进行筛选,本专利技术提出了一种新的基于误差最小化的剪枝算法进行循环剪枝,来去除有害基随机森林学习器。一般情况下,由与河流浊度相关性较低的特征组或相似特征组训练的基随机森林学习器不可避免地会破坏集合的整体输出。因此,剪枝算法对于在给定的全组合特征子空间中获得特征组的稀疏表示起着至关重要的作用,从而只保留了与河流浊度有较强的相关性,但相互之间相关性较弱的特征组。此外,修剪也是降低模型复杂度和加快模型执行速度的重要手段。与大多数现有的基于误差减小的修剪算法不同,本专利技术提出了一种新的剪枝算法,该算法通过循环剪枝的方式将误差降到最小,直到没有基随机森林学习器被删除为止。我们的剪枝算法的实现细节如下所示。先近似一个集成函数G(y):Rα→Rβ用来表示基学习器的学习过程,R为函数的域,α和β为域的维度,y∈Rα是从分布函数P(y)中进行取样。输出y的期望输出是假设第i个基随机森林学习器的输出是Gi(y),就可以将集成的输出表示为:其中,i=1,2,…,k表示第i个基随机森林学习器;k是基随机森林学习器的总个数;gi是第i个基随机森林学习器的权重,其值属于区间[0,1],并有定义第i个基随机森林学习器在输出y上的泛化误差为Ei(y),和在y上的集成泛化误差为其中,y的期望输出是Gi(y)是第i个基随机森林学习器的输出;为集成的输出。然后进一步推导第i个基随机森林学习器在分布P(y)上的泛化误差为Ei和集成泛化误差为Ei=∫Ei(y)P(y)dy(4)将第i个基随机森林学习器与第j个基随机森林学习器的相关性表示如下:其中,Cij=Cji;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei,Ej分别为i个和与第j个基随机森林学习器在分布P(y)上的泛化误差。结合公式(2)和公式(4),可以得到集成泛化误差为:其中,gi,gj为取值区间[0,1]的权重;Gi(y)与Gj(y)是对应的第i和第j个基随机森林学习器的输出;输出y的期望的输出是进一步结合公式(6)和公式(7)可以推导出集成误差表示为:其中,gi,gj为取值区间[0,1]的权重;Cij为第i和第j个基随机森林学习器的相关性。为了简单起见,假设所有基随机森林本文档来自技高网
...

【技术保护点】
1.一种基于随机森林集成的河流浊度软测量方法,其特征在于:/n先用一个集成函数G(y):R

【技术特征摘要】
1.一种基于随机森林集成的河流浊度软测量方法,其特征在于:
先用一个集成函数G(y):Rα→Rβ用来表示基学习器的学习过程,R为函数的域,α和β为域的维度,y∈Rα为域的维度,α和β为域的维度,y∈Rα是从分布函数P(y)中进行取样;输出y的期望输出是假设第i个基随机森林学习器的输出是Gi(y),将集成的输出表示为:



其中,i=1,2,…,k表示第i个基随机森林学习器;k是基随机森林学习器的总个数;gi是第i个基随机森林学习器的权重,其值属于区间[0,1],并有
定义第i个基随机森林学习器在输出y上的泛化误差为Ei(y),和在y上的集成泛化误差为






其中,y的期望输出是Gi(y)是第i个基随机森林学习器的输出;为集成的输出。为集成的输出。
第i个基随机森林学习器在分布P(y)上的泛化误差为Ei和集成泛化误差为
Ei=∫Ei(y)P(y)dy(4)



将第i个基随机森林学习器与第j个基随机森林学习器的相关性表示如下:



其中,Cij=Cji;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei表示第i个基学习器的自相关性和其泛化误差相等;Cii=Ei表示第i个基学习器的自相关性和其泛化误差相等;Ei,Ej分别为i个和与第j个基随机森林学习器在分布P(y)上的泛化误差;
结合公式(2)和公式(4),得到集成泛化误差为:



其中,gi,gj为取值区间[0,1]的权重的权重;Gi(y)与Gj(y)是对应的第i和第j个基随机森林学习器的输出;输出y的期望的输出是
进一步结合公式(6)和公式(7)推导出集成误差表示为:



其中,gi,gj为取值区间[0,1]的权重的权重;Cij为第i为第i和第j个基随机森林学习器的相关性;
设定所有基随机森林学习器都具有相同的重要性,因此将公式(8)重写为:



其中,k是基随机森林学习器的总个数;Cij为第i为第i和第j个基随机森林学习器的相关性;
观察公式(2)-(9),如果第l个基随机森林学习器被删除的话,将会得到新的集成泛化误差



其中,Cij为第i为第i和第j个基随机森林学习器的相关性;
综合公式(9)和公式(10),得到以下结论,如果集成泛化误差小于表示误差在减小,那么认为去掉了第l个基随机森林学习器的集成是完成一个很好工作,将这个过程定义为:

...

【专利技术属性】
技术研发人员:顾锞乔俊飞
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1