一种水质自动在线站高频连续观测数据质量控制方法技术

技术编号:24499719 阅读:66 留言:0更新日期:2020-06-13 04:33
本发明专利技术公开的一种水质自动在线站高频连续观测数据质量控制方法,通过采集模块获取第一水质观测序列数据,得到时间序列数据集;对时间序列数据集进行差分运算,并进行平稳性检测,得到平稳差分时间序列数据;对其数据确定统计窗口值大小和滑动步长取值范围,按照统计窗口值大小和滑动步长开展滑动检测;通过若干种检测方法进行异常值检测,将得到相应异常值,并进行合并得到综合异常值;对异常值序列点位进行重构处理,得到第二水质观测序列数据,实现水质观测数据质量控制;本发明专利技术对水质进行异常值检测,并进行重构,结合数据差分处理、平稳性检验及统计窗口与滑动检测,实现水质自动在线站数据进行质量控制,具有行业推广价值和应用前景。

A quality control method of high frequency continuous observation data of water quality automatic online station

【技术实现步骤摘要】
一种水质自动在线站高频连续观测数据质量控制方法
本专利技术涉及水环境信息技术的研究领域,特别涉及一种水质自动在线站高频连续观测数据质量控制方法。
技术介绍
随着污染防治攻坚战不断深入、监测技术的不断发展,自动监测已进入水环境质量监测领域,具有时间和空间上连续监测的优势,弥补了手工监测的不足。地表水水质自动监测系统由地表水水质自动监测站(简称水站)、水质自动监测数据平台(简称数据平台)组成。目前全国已建成2000多个国家地表水水质自动站,大规模水质自动监测站建设和“互联网+”大数据时代的到来,对环境监测与环境管理提出了更高的要求。河流水质观测异常值或缺失值未适当修正,将对河流水质及污染情况误判,从而可能导致错误的决策。数据质量控制离不开数据挖掘程序算法和专家经验。目前国内外数据质量控制技术的在海洋观测数据方面应用较多,对于地表水监测数据质量控制方面的研究较少。随着大规模地表水水质自动监测站建设,水质监测频率大幅提高,数据量日益增加,怎样结合人为经验与计算机算法有效地提取、选择和处理获取的数据,实现数据的可靠性、保证信息的完整性并降低数据的不确定性,是亟待解决的问题。地表水水质参数之间具有协同或相反变化趋势,通过专家先验知识对参数相关性与趋势性分析对数据异常值把控不可或缺。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种水质自动在线站高频连续观测数据质量控制方法,为了水质自动在线站高频连续观测数据异常值检测和数据集质量控制,提出了水质高频连续观测时间序列数据平稳处理方法并进行平稳性检验,在此基础上提出如下核心假设:在一个较短的时间内,获取测量属性的值近似表现为一种物理状态,即等同于异常值检测中的平行重复观测。选择3种核心质量控制算法应用于单参数和多参数高频观测时间序列的异常值检测,并在此基础上实现对异常数据的重构,是水质自动在线观测数据的质量控制一种实际可行的操作方法。本专利技术的目的通过以下的技术方案实现:一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,包括以下步骤:通过水质传感器采集模块连续获取第一水质观测序列数据,得到时间序列数据,并建立数据集;对时间序列数据集进行差分运算,并对差分时间序列进行平稳性检测,得到平稳差分时间序列数据;对平稳差分时间序列数据,确定统计窗口值大小和滑动步长取值范围,按照统计窗口值大小和滑动步长开展滑动检测;通过若干种检测方法进行异常值检测,将得到相应异常值,并对不同方法的结果进行合并,得到综合异常值;对异常值序列点位进行重构处理,得到第二水质观测序列数据,实现高频连续的水质观测数据质量控制。进一步地,所述第一水质观测序列为水质传感器采集模块获得的连续高频数据序列;所述第二水质观测序列为异常值检测并进行重构处理后得到的新的序列。进一步地,所述差分运算具体如下:其中,Δy(i)t为第i个水质观测属性在时刻t的差分观测值,y(i)t为第i个水质观测属性在时刻t的实际观测值,y(i)t-1为第i个水质观测属性在时刻t-1的实际观测值,Δt为采样周期。进一步地,所述采样周期范围是:1~14400s,即采样最高周期为1秒,采样最低周期为4小时。进一步地,第一水质观测序列的长度不低于200个样本。进一步地,所述序列平稳性检测采用单位根检测方法。进一步地,所述进行统计窗口并进行滑动检测,具体如下:通过实际序列的相关关系代替平行规则,统计窗口w即选取时间序列值大小,其中w∈[3,20],当采样周期越大时,统计窗口越小;当采样周期越小时,统计窗口越大;滑动步长即时间序列每次滑动距离,其取值范围为[1,w-1];统计窗口和滑动步长值的确定是人为经验自主设定,对于没有相关经验的用户来说可采用如下推荐方法:对于采样周期小于10分钟的序列,统计初始窗口可定义为20,对于采样周期大于10分钟的序列,统计初始窗口可定义为10;对于序列长度低于10000样本的序列,滑动窗口可默认为1,对于序列长度大于10000样本的序列,滑动窗口可默认为5。进一步地,所述若干种检测方法进行异常值检测包括莱茵达检验法、狄克逊检验法、格拉布斯检验法。进一步地,所述莱茵达检验法进行异常值检测具体如下:计算并获得贝塞尔计算值S(i)t:其中,δ(i)t为第i个水质观测属性在时刻t的差分统计窗口内标准差,S(i)t为第i个水质观测属性在时刻t的差分统计窗口内内赛尔计算值,w为统计窗口取值,Δy(i)t+j为时刻t+j的观测序列差分值,为差分序列窗口内的平均值,w-1为自由度;则异常值为序列中差分值在区间以外的值;所述狄克逊检验法进行异常值检测具体如下:将第i个水质观测序列窗口内的差分值按照从小到大排列,将排列好序列数据的最高值和最低值作为异常值的检验对象,检验高端值和地端值是否异常按下列公式,算出Q值:其中,Δy(i)'t+w为新排序后序列的最大值,Δy(i)'t+1为新排序后序列的最小值,Δy(i)'t+w-1为新排序后序列的次大值,Δy(i)'t+2为新排序后序列的次小值,Δy(i)'t+w-2为新排序后序列的第3大值,Δy(i)'t+3为新排序后序列的第3小值。根据选定的显著水平a和水质观测序列窗口w,依据狄克逊准则检测临界值判断表得到临界值Qa,再根据离群数据判别准则,进行取舍;所述离群数据判别准则如下:若Q>Q0.01,则可疑值为异常值,可疑值进行再处理;若Q0.05<Q<Q0.01,则可疑值为偏离值,可疑值进行保留或再处理;若Q<Q0.05,则可疑值为正常值,可疑值进行保留;所述格拉布斯检测法进行异常值检测具体如下:将第i个水质观测序列窗口内的差分值从小到大排列,确定最大值或最小值为可疑值;即对序列按照从小到大进行排序,第一位是最小值,最后一位为最大值,按照格拉布斯方法的原理,最大值或者最小值先定为初步的可疑值;计算并得到差分序列窗口内的平均值和标准差;计算最大值和最小值与平均值的差值,得到最终的可疑值;计算G(i)t+j值:其中,t+j为时间序列对应的时刻,G(i)t+j为t+j时刻的格拉布斯值,Δy(i)t+j为时刻t+j的观测序列差分值,为差分序列窗口内的平均值,δ(i)t为第i个水质观测属性在时刻t的差分统计窗口内标准差。对G(i)t+j值和Grubbs准则检测临界值Gp(w)比较,如果G(i)t+j值大于Grubbs准则检测临界值Gp(w),则该测量数据为异常值。G(i)t+j值是根据上述公式计算得到的结果值,命名为格拉布斯(G(i)t+j)值,通过与规定的Gp(w)比较,确定这个时刻的观测值是否异常。进一步地,所述将不同检测结果的异常值进行合并,得到最后异常检测结果,具体如下:ZHY(i)=LY(i)∪QY(i)∪GY(i)其中,ZHY本文档来自技高网...

【技术保护点】
1.一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,包括以下步骤:/n通过水质传感器采集模块连续获取第一水质观测序列数据,得到时间序列数据,并建立数据集;/n对时间序列数据集进行差分运算,并对差分时间序列进行平稳性检测,得到平稳差分时间序列数据;/n对平稳差分时间序列数据,确定统计窗口值大小和滑动步长取值范围,按照统计窗口值大小和滑动步长开展滑动检测;/n通过若干种检测方法进行异常值检测,将得到相应异常值,并对不同方法的结果进行合并,得到综合异常值;/n对异常值序列点位进行重构处理,得到第二水质观测序列数据,实现高频连续的水质观测数据质量控制。/n

【技术特征摘要】
1.一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,包括以下步骤:
通过水质传感器采集模块连续获取第一水质观测序列数据,得到时间序列数据,并建立数据集;
对时间序列数据集进行差分运算,并对差分时间序列进行平稳性检测,得到平稳差分时间序列数据;
对平稳差分时间序列数据,确定统计窗口值大小和滑动步长取值范围,按照统计窗口值大小和滑动步长开展滑动检测;
通过若干种检测方法进行异常值检测,将得到相应异常值,并对不同方法的结果进行合并,得到综合异常值;
对异常值序列点位进行重构处理,得到第二水质观测序列数据,实现高频连续的水质观测数据质量控制。


2.根据权利要求1所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述差分运算具体如下:



其中,Δy(i)t为第i个水质观测属性在时刻t的差分观测值,y(i)t为第i个水质观测属性在时刻t的实际观测值,y(i)t-1为第i个水质观测属性在时刻t-1的实际观测值,Δt为采样周期。


3.根据权利要求2所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述采样周期范围是:1~14400s,第一水质观测序列长度不低于200个样本。


4.根据权利要求1所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述序列平稳性检测采用单位根检测方法。


5.根据权利要求1所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述确定统计窗口值大小和滑动步长取值范围,按照统计窗口值大小和滑动步长开展滑动检测,具体如下:
通过实际序列的相关关系代替平行规则,统计窗口w即选取时间序列值大小,当采样周期越大时,统计窗口越小;当采样周期越小时,统计窗口越大;滑动步长即时间序列每次滑动距离,其取值范围为[1,w-1]。


6.根据权利要求1所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述若干种检测方法进行异常值检测包括莱茵达检验法、狄克逊检验法、格拉布斯检验法。


7.根据权利要求6所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述莱茵达检验法进行异常值检测具体如下:
计算并获得贝塞尔计算值S(i)t:



其中,δ(i)t为第i个水质观测属性在时刻t的差分统计窗口内标准差,S(i)t为第i个水质观测属性在时刻t的差分统计窗口内内赛尔计算值,w为统计窗口取值,Δy(i)t+j为时刻t+j的观测序列差分值,为差分序列窗口内的平均值,w-1为自由度;
则异常值为序列中差分值在区间以外的值;
所述狄克逊检验法进行异常值检测具体如下:
将第i个水质观测序列窗口内的差分值按照从小到大排列,将排列好序列数据的最高值和最低值作为异常值的检验对象,检验高端值和地端值是否异常按下列公式,算出Q值:












其中,Δy(i)'t+w为新排序后序列的最大值,Δy(i)'t+1为新排序后序列的最小值,Δy(i)'t+w-1为新排序后序列的次大值,Δy(i)'t+2为新排序后序列的次小值,Δy(i)'t+w-2为新排序后序列的第3大值,Δy(i)'t+3为新排序后序列的第3小值;
根据选定的显著水平a和水质观测序列窗口w,依据狄克逊准...

【专利技术属性】
技术研发人员:范中亚蒋锦刚王文才姜妮赵长进杨汉杰林澍陈钢王钟黄志伟郭静罗千里
申请(专利权)人:生态环境部华南环境科学研究所
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1