一种基于随机森林集成的河流浊度软测量方法技术

技术编号：24758170 阅读：45 留言：0更新日期：2020-07-04 09:36

一种基于随机森林集成的河流浊度软测量方法属于水体环境保护领域和机器学习领域。本发明专利技术利用免费提供高光谱遥感数据的Google地球引擎，建立了一种基于随机森林集合的河流浑浊度测量模型。通过充分利用每个光谱及其调谐的光谱信息，利用新提出的全组合子空间方法，生成所有可能的基随机森林学习器。再利用新提出的基于误差最小化的剪枝算法，根据动态阈值循环去除有害基随机森林学习器。最后采用正则化线性回归加权平均法，融合有益基随机森林学习器，得到河流浊度的最终测量结果。本发明专利技术较现有方法在预测河流浊度和数据来源难易程度上有明显提升，可以协助政府进行水污染防治和监测等。

A soft sensing method of river turbidity based on random forest ensemble

全部详细技术资料下载

【技术实现步骤摘要】
一种基于随机森林集成的河流浊度软测量方法
本专利技术利用免费提供高光谱遥感数据的GoogleEarthEngine(GEE)平台，建立了一种基于随机森林集成的河流浊度软测量方法。通过充分利用每个光谱及其调谐的光谱信息，利用新提出的全组合子空间方法，生成所有可能的基随机森林学习器。再利用新提出的基于误差最小化的剪枝算法，根据动态阈值循环去除有害基随机森林学习器。最后采用正则化线性回归加权平均法，融合有益基随机森林学习器，得到河流浊度的最终测量结果。基于随机森林集成学习器的河流浊度测量方法属于水体环境保护领域和机器学习领域。
技术介绍
随着全球人口的快速增长和经济的高速发展，水资源的污染和短缺对我们日常生活中的水安全造成了越来越严重的影响。在许多国家和地区，仍然存在将大量未经处理的工业废水直接排入河流或补充地下水的现象，这造成了严重的水体污染问题。这是极其危险的，因为如果水受到污染，不及时净化，很可能造成巨大的风险，例如导致大规模的传染病爆发，进而影响生物生存。此外，水污染对生态环境也产生了重要影响。因此，建立一套有效的水污染防治监测体系已迫在眉睫。浊度是一个重要的水质评价指标，特别是对于饮用水、烹饪水和高标准工业用水。浊度本质上是指水中悬浮物(如沙、土、无机物和有机物、微生物和胶体物质等)对光透射的阻碍程度。悬浮物，特别是微生物，会严重危害人们的健康。此外，河流的浊度会改变山间河流和海洋的反射率，这可能导致河流表面温度的变化，破坏水生生态系统的平衡。河流的浊度随时间变化很大，主要受以下因素的影响，包括水流速度和...

【技术保护点】
1.一种基于随机森林集成的河流浊度软测量方法，其特征在于：/n先用一个集成函数G(y):R

【技术特征摘要】
1.一种基于随机森林集成的河流浊度软测量方法，其特征在于：
先用一个集成函数G(y):Rα→Rβ用来表示基学习器的学习过程，R为函数的域，α和β为域的维度，y∈Rα为域的维度，α和β为域的维度，y∈Rα是从分布函数P(y)中进行取样；输出y的期望输出是假设第i个基随机森林学习器的输出是Gi(y)，将集成的输出表示为：

其中，i＝1，2，…，k表示第i个基随机森林学习器；k是基随机森林学习器的总个数；gi是第i个基随机森林学习器的权重，其值属于区间[0,1]，并有
定义第i个基随机森林学习器在输出y上的泛化误差为Ei(y)，和在y上的集成泛化误差为

其中，y的期望输出是Gi(y)是第i个基随机森林学习器的输出；为集成的输出。为集成的输出。
第i个基随机森林学习器在分布P(y)上的泛化误差为Ei和集成泛化误差为
Ei＝∫Ei(y)P(y)dy(4)

将第i个基随机森林学习器与第j个基随机森林学习器的相关性表示如下：

其中，Cij＝Cji；Cii＝Ei表示第i个基学习器的自相关性和其泛化误差相等；Ei表示第i个基学习器的自相关性和其泛化误差相等；Cii＝Ei表示第i个基学习器的自相关性和其泛化误差相等；Ei，Ej分别为i个和与第j个基随机森林学习器在分布P(y)上的泛化误差；
结合公式(2)和公式(4)，得到集成泛化误差为：

其中，gi，gj为取值区间[0，1]的权重的权重；Gi(y)与Gj(y)是对应的第i和第j个基随机森林学习器的输出；输出y的期望的输出是
进一步结合公式(6)和公式(7)推导出集成误差表示为：

其中，gi，gj为取值区间[0,1]的权重的权重；Cij为第i为第i和第j个基随机森林学习器的相关性；
设定所有基随机森林学习器都具有相同的重要性，因此将公式(8)重写为：

其中，k是基随机森林学习器的总个数；Cij为第i为第i和第j个基随机森林学习器的相关性；
观察公式(2)-(9)，如果第l个基随机森林学习器被删除的话，将会得到新的集成泛化误差

其中，Cij为第i为第i和第j个基随机森林学习器的相关性；
综合公式(9)和公式(10)，得到以下结论，如果集成泛化误差小于表示误差在减小，那么认为去掉了第l个基随机森林学习器的集成是完成一个很好工作，将这个过程定义为：

...

【专利技术属性】
技术研发人员：顾锞，乔俊飞，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人