【技术实现步骤摘要】
一种水环境监测数据中异常值的检测和修复方法
[0001]本专利技术涉及水环境监测
,特别是涉及一种水环境监测数据中异常值的检测和修复方法。
技术介绍
[0002]随着大数据应用的不断深入,数据质量问题已成为影响大数据应用发展的关键问题。水环境监测数据是利用传感器检测的各个水环境指标(水温、PH值、溶解氧、电导率、浊度、氨氮、高锰酸盐指数、总磷、总氮、叶绿素、蓝绿藻等)的时间序列,它们是典型的大数据。由于传感器的故障、数据传输、读取错误等因素影响,导致水环境监测数据中出现异常值,异常值的存在降低了监测数据的数据质量,异常值的及时检测和修复对后期的知识获取、水环境指标预测建模等应用具有重要意义。
[0003]为了提高数据的可用性,研究者们对大数据采用拟合方法和预测方法进行异常值修复,但水环境监测数据受外界影响(如污染、天气原因等)较大,导致按照长期趋势拟合后的模型误差较大,而水环境监测中的异常值一般包括缺失值,从而导致预测方法失效。异常值修复的前期步骤是异常值检测,传统的异常值检测技术主要基于分类、基于距离、基于聚 ...
【技术保护点】
【技术特征摘要】
1.一种水环境监测数据中异常值的检测和修复方法,其特征在于,包括以下步骤:(1)利用滑动窗口对水环境监测数据进行短期环比来检测异常值;(2)将水环境监测数据进行动态分割划分为各个子序列;(3)针对异常值所在子序列,分别计算和其他子序列的相似性并选取相似性最大的子序列;(4)根据最相似子序列中相应位置数据的变化趋势修复所述异常值。2.根据权利要求1所述的水环境监测数据中异常值的检测和修复方法,其特征在于,所述步骤(1)中检测异常值的方法具体为:对时间序列V上的每个监测值v
i
,与k
‑
最近邻居窗口大小逐一计算差值,并记录差值超过阈值ε的点数量countnum,当所有比较结束后,根据countnum值是否大于τ,检验v
i
是否为异常值,如果v
i
是异常值则将其位置记录下来;其中V为水环境监测数据V=(v1,v2,
…
,v
n
),其中点v
i
(1≤i≤n)为t
i
时刻对应的监测值,时刻对应的监测值,表示点v
i
的k
‑
最近邻居窗口,若在中存在或者则判定v
i
为异常值,其中ε为差值阈值,τ为数量阈值。3.根据权利要求1所述的水环境监测数据中异常值的检测和修复方法,其特征在于,所述步骤(2)中将水环境监测数据进行动态分割划分为各个子序列具体为:基于最大距离阈值对序列进行动态划分,首先设置一个标志变量flag,flag值为1代表子序列处于上升状态、值为
‑
1代表处于下降状态、值为0代表处于稳定状态;根据数据序列的初始走势给flag赋初值;然后对每个监测数据v
i
做如下操作,计算与前一个数据的差分值e
i
=v
i
‑
v
i
‑1,并计算子序列到目前为止的最大距离,当最大距离不超过阈值时,如果e
i
与flag的符号相反则将flag...
【专利技术属性】
技术研发人员:宋金玲,黄达,黄立明,康燕,
申请(专利权)人:河北科技师范学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。