一种水质监测数据质量控制方法及系统技术方案

技术编号:33551956 阅读:18 留言:0更新日期:2022-05-26 22:48
本发明专利技术涉及水质监测领域,提供一种水质监测数据质量控制方法及系统,包括:S1:获取初始水质监测数据,对所述初始水质监测数据进行数据清洗,获得水质数据集;S2:通过多元高斯分布异常数据监测方法计算所述水质数据集的联合概率密度函数,通过所述联合概率密度函数对所述水质数据集进行第一次异常数据筛选,获得第一次筛选后的水质数据集;S3:将所述第一次筛选后的水质数据集通过基于密度的聚类分析进行第二次异常数据筛选,获得第二次筛选后的水质数据集,将所述第二次筛选后的水质数据集作为最终水质监测结果。本发明专利技术在减少传统异常数据监测工作量的同时,可以较好的挖掘出具有统计意义的水质异常数据,可有效增加水质监测数据质量控制的合理性。据质量控制的合理性。据质量控制的合理性。

【技术实现步骤摘要】
一种水质监测数据质量控制方法及系统


[0001]本专利技术涉及水质监测领域,尤其涉及一种水质监测数据质量控制方法及系统。

技术介绍

[0002]当前,我国水质监测技术主要以理化监测技术为主,包括化学法、电化学法、原子吸收分光光度法、离子选择电极法等等。而基于多元高斯分布、基于聚类分析等的数据挖掘算法多用于互联网和统计学领域。当获取到大量水质各项指标的数据集后,用传统方法监测水质污染情况和异常数据工作量会非常大,我们将不限于上述统计学中的各类数据挖掘方法应用到水质异常数据监测中会大大减少工作量,上述两类数据挖掘算法及其混合算法在合理的误差范围内可以较好的监测水质异常数据,不过相比于传统的水质异常数据的监测,上述智能监测水质技术在工作量大大减少的同时对水质异常数据检测的精度会有所降低。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]为解决上述技术问题,本专利技术提供一种水质监测数据质量控制方法,包括:
[0005]S1:获取初始水质监测数据,对所述初始水质监测数据进行数据清洗,获得水质数据集;
[0006]S2:通过多元高斯分布异常数据监测方法计算所述水质数据集的联合概率密度函数,通过所述联合概率密度函数对所述水质数据集进行第一次异常数据筛选,获得第一次筛选后的水质数据集;
[0007]S3:将所述第一次筛选后的水质数据集通过基于密度的聚类分析进行第二次异常数据筛选,获得第二次筛选后的水质数据集,将所述第二次筛选后的水质数据集作为最终水质监测结果。
[0008]优选的,步骤S1具体为:
[0009]剔除所述初始水质监测数据中的缺省值,获得所述水质数据集,所述水质数据集中各水质数据的维度均为n;
[0010]所述水质数据集中各水质数据的监测项包括:PH值,溶解氧,浊度,总磷,总氮,氨氮和COD。
[0011]优选的,步骤S2具体为:
[0012]S21:所述水质数据集T的表达式为:T={x
(1)
,x
(2)
,

,x
(m)
},其中,m表示水质数据集中水质数据的总数,对于各水质数据均满足:i表示水质数据的编号,x
(i)
表示第i号水质数据,n表示水质数据的维度;
[0013]S22:计算获得所述水质数据集的期望μ、标准差σ和协方差Σ;
[0014]期望μ的计算公式如下:
[0015][0016]标准差计算公式如下:
[0017][0018]协方差Σ的计算公式如下:
[0019][0020]S23:所述联合概率密度函数的计算公式如下:
[0021][0022]其中,X表示联合概率密度函数中的元素;
[0023]S24:提取所述水质数据集中满足所述联合概率密度函数的水质数据,将三倍标准差σ以外的水质数据剔除,获得所述第一次筛选后的水质数据集。
[0024]优选的,步骤S3具体为:
[0025]S31:所述第一次筛选后的水质数据集的表达式为:T1={x
(1)
,x
(2)
,

,x
(k)
},其中,k表示第一次筛选后的水质数据集中水质数据的总数,对于各水质数据均满足:j表示水质数据的编号,x
(j)
表示第j号水质数据,n表示水质数据的维度;
[0026]S32:给定各水质数据x
(j)
邻域半径内包含的其它水质数据的个数值N,计算获得各水质数据x
(j)
对应的最小邻域半径R
j

[0027]水质数据x
(j)
的最小邻域半径R
j
采用欧式距离进行计算,计算公式如下:
[0028][0029]其中,d表示水质数据x
(j)
邻域半径内包含的其它水质数据的编号;
[0030]S33:计算各水质数据对应的最小邻域半径的期望μ1和标准差σ1;
[0031]期望μ1的计算公式如下:
[0032][0033]标准差σ1的计算公式如下:
[0034][0035]S34:将最小邻域半径R
j
>μ1+3σ1和R
j
<μ1‑
3σ1的水质数据作为异常数据剔除,获得所述第二次筛选后的水质数据集。
[0036]一种水质监测数据质量控制系统,包括:
[0037]水质数据集获取模块,用于获取初始水质监测数据,对所述初始水质监测数据进行数据清洗,获得水质数据集;
[0038]第一次筛选模块,用于通过多元高斯分布异常数据监测方法计算所述水质数据集的联合概率密度函数,通过所述联合概率密度函数对所述水质数据集进行第一次异常数据筛选,获得第一次筛选后的水质数据集;
[0039]第二次筛选模块,用于将所述第一次筛选后的水质数据集通过基于密度的聚类分析进行第二次异常数据筛选,获得第二次筛选后的水质数据集,将所述第二次筛选后的水质数据集作为最终水质监测结果。
[0040]本专利技术具有以下有益效果:
[0041]本专利技术提供的方法仅有邻域内的其它水质数据个数(N)一个人为设置的参数,可以很好的减少人为设置多个参数的难度和带来的误差,很好的实现了多元高斯分布异常数据监测方法和基于密度的聚类分析方法的并用;在减少传统异常数据监测工作量的同时,可以较好的挖掘出具有统计意义的水质异常数据,可有效增加水质监测数据质量控制的合理性。
附图说明
[0042]图1为本专利技术实施例方法流程图;
[0043]图2为本专利技术实施例系统结构图;
[0044]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0045]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0046]参照图1,本专利技术提供一种水质监测数据质量控制方法,包括:
[0047]S1:获取初始水质监测数据,对所述初始水质监测数据进行数据清洗,获得水质数据集;
[0048]S2:通过多元高斯分布异常数据监测方法计算所述水质数据集的联合概率密度函数,通过所述联合概率密度函数对所述水质数据集进行第一次异常数据筛选,获得第一次筛选后的水质数据集;
[0049]S3:将所述第一次筛选后的水质数据集通过基于密度的聚类分析进行第二次异常数据筛选,获得第二次筛选后的水质数据集,将所述第二次筛选后的水质数据集作为最终水质监测结果。
[0050]本实施例中,步骤S1具体为:
[0051]剔除所述初始水质监测数据中的缺省值,获得所述水质数据集,所述水质数据集中各水质数据的维度均为n;
[0052]所述水质数据集中各水质数据的监测项包括:PH值,溶解氧,浊度,总磷,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种水质监测数据质量控制方法,其特征在于,包括:S1:获取初始水质监测数据,对所述初始水质监测数据进行数据清洗,获得水质数据集;S2:通过多元高斯分布异常数据监测方法计算所述水质数据集的联合概率密度函数,通过所述联合概率密度函数对所述水质数据集进行第一次异常数据筛选,获得第一次筛选后的水质数据集;S3:将所述第一次筛选后的水质数据集通过基于密度的聚类分析进行第二次异常数据筛选,获得第二次筛选后的水质数据集,将所述第二次筛选后的水质数据集作为最终水质监测结果。2.根据权利要求1所述的水质监测数据质量控制方法,其特征在于,步骤S1具体为:剔除所述初始水质监测数据中的缺省值,获得所述水质数据集,所述水质数据集中各水质数据的维度均为n;所述水质数据集中各水质数据的监测项包括:PH值,溶解氧,浊度,总磷,总氮,氨氮和COD。3.根据权利要求1所述的水质监测数据质量控制方法,其特征在于,步骤S2具体为:S21:所述水质数据集T的表达式为:T={x
(1)
,x
(2)
,

,x
(m)
},其中,m表示水质数据集中水质数据的总数,对于各水质数据均满足:i表示水质数据的编号,x
(i)
表示第i号水质数据,n表示水质数据的维度;S22:计算获得所述水质数据集的期望μ、标准差σ和协方差Σ;期望μ的计算公式如下:标准差计算公式如下:协方差Σ的计算公式如下:S23:所述联合概率密度函数的计算公式如下:其中,X表示联合概率密度函数中的元素;S24:提取所述水质数据集中满足所述联合概率密度函数的水质数据,将三倍标准差σ以外的水质数据剔除,获得所述第一次筛选后的水质数据集。4.根据权利要求1所述的水质监测数据质量控制方法,其特征在于,步骤S3具体为:S31:所述第一次筛选后的水质数据集的表达式为:T...

【专利技术属性】
技术研发人员:牟林陈文锐王道胜牛茜如
申请(专利权)人:中地大海洋广州科学技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1