一种基于管网多元水质时序数据的水质异常事件识别预警方法技术

技术编号:24252403 阅读:34 留言:0更新日期:2020-05-23 00:00
一种基于管网多元水质时序数据的水质异常事件识别预警方法,属于供水管网水处理技术领域。首先,对SCADA采集的监测点的水质数据进行预处理,模拟出模拟水质异常事件数据。其次,对正常运行状态下的多个水质指标建立预测回归模型,并选择每种水质指标的回归预测模型模型训练较好的模型进行集成,构建最终的回归预测模型。再次,确定各水质指标的预测值与真实值残差分布的标准差,并对回归预测模型进行评价,确定最优算数乘子。最后,利用时序贝叶斯原理进行水质异常事件的概率更新,并进行事件报警,给出最终模型的报警信号及水质异常事件的发生概率、异常水质指标。本发明专利技术具有运行成本低、操作简单、效果好等优点,能够大幅降低误报率与漏报率。

An early warning method of abnormal water quality events recognition based on multivariate water quality time series data of pipe network

【技术实现步骤摘要】
一种基于管网多元水质时序数据的水质异常事件识别预警方法
本专利技术涉及供水管网水处理
,具体涉及到一种基于管网多元水质时序数据的异常事件识别预警方法。
技术介绍
配水管网直接面向用户,是供水系统的一个重要环节,居民饮用水的清洁状况直接影响到人民的身体健康。管网内发生水质污染事件后,污染物会随着水质的运移快速的在管网中扩散,不仅会造成巨大的经济损失,影响供水安全,而且会造成环境破坏,影响社会秩序,甚至威胁到居民的生命安全。供水管网红、黄水事故频发,使得居民的用水安全受到威胁,因此快速发现水质污染事故和提升水质状况成为各地水务集团的重点关注内容。然而,当前水质污染事故检测缺乏有效的科学方法,更多依赖用户报告,水务集团才能获知水质污染事故的发生,而此时水质污染事故往往已经造成了大量的受污染水量,影响了居民的正常用水,人工举报方法已经严重影响了水务集团的供水服务水平和社会受认可度。因此供水管网水质事故快速预警成为供水系统管理领域的重要研究方向。针对管网内水质异常事件的识别与检测问题,国内外众多科研工作者已经展开了大量的工作。目前关于水质污染事件的研究,主要包括水质污染事故检测指标、基于统计分析的水质污染事故预警研究和基于神经网络数据驱动模型的水质污染事故预警研究三方面。现在的研究均存在一定的不足,不能很好的识别出不平稳水质事件序列的水质事件,在管网的实际应用中需要标定大量的参数,在不同地区的管网系统,在线水质监测平台测量的水质指标有不同,水质数据的测量精度也有不同,应用于不同地区管网时比较麻烦,正确预警的概率不高。同时,在管网实际的运行过程中,管网内的水质数据往往可能会因为传感器的影响或者泵运行工况的改变造成异常的波动,这种情况导致的水质数据的波动并不能成为水质的异常事件,大量的研究识别出水质异常点就进行水质的预警报告,漏报率和误报率较高。
技术实现思路
对上述不足,本专利技术要解决的问题是提供一种供水管网水质污染事件监测预警的模型方法,能适用于不同管网的多水质指标的水质事件识别,有较强的鲁棒性,能适应较强噪声点的影响,有较高的正确预警水质事件的概率,同时将误报率控制在较小的范围内。为了达到上述的目的,本专利技术采用的技术方案为:一种基于管网多元水质时序数据的水质异常事件识别预警方法,包括以下步骤:(1)对SCADA采集的监测点的水质数据进行预处理,模拟出模拟水质异常事件数据;(2)对预处理过的正常运行状态下的多个水质指标建立预测回归模型,每一种水质指标的预测均采用相同形式的输入输出格式,每一种水质数据的预测都采用多种机器学习方法进行下一时段水质指标值的预测(例如KNN、回归树、ANN、随机森林、不同核函数配置的SVM回归模型等),通过不同的机器学习回归方法得到不同指标的时段的预测值,利用水质指标的真实值与预测值的决定系数R2的值来评价回归预测模型的性能,保存每一种水质指标预测较好的机器学习回归预测模型,机器学习回归预测模型的输入输出关系可以用以下公式表示,式中,xi(t),表示为水质指标i在时间t的真实值和模型预测值;f(·)是回归预测模型函数,由各个回归模型确定,其自变量为回归模型的输入,输出为水质指标i的预测值;每一种水质指标回归预测模型的输入均为该指标上一时段的真实值和其他n-1个水质指标本时段真实值,输出为该水质指标本时段的预测值。(3)选择步骤(2)中每种水质指标的回归预测模型模型训练较好的模型进行集成,构建集成学习Stacking模型,将优选的回归模型进行优选后stacking,作为最终的回归预测模型;(4)将步骤(2)中各水质指标的预测值与真实值进行残差计算,得到残差分布,确定残差分布的标准差,残差计算可以用以下公式表示,式中,ERi(t)是水质指标i在时间t的真实值与预测值的估计残差。(5)对步骤(3)得到的回归预测模型进行评价,选择合适的算数乘子,将其与残差分布标准差相乘作为阈值,当残差的绝对值超出阈值后作为一初始的异常点识别,该关系可用以下公式表示,γi=Sd(ERi)×muli(3)式中,γi为水质指标i的残差阈值,Sd(ERi)是步骤(4)中所得到水质指标i的残差分布的标准差,muli是确定水质指标i残差阈值时需要确定的算数乘子,I[ERi(t)]为指示函数,I[ERi(t)]=1表示水质指标i在时间t时模型识别为水质异常点,I[ERi(t)]=0表示水质指标i在时间t时模型识别为水质正常点。(6)步骤(5)中的算数乘子的确定需要进行循环寻优,在(0,20)的范围内选择最优的算数乘子,确定的原则是让是让TPR尽可能大,FPR尽可能小,式中,TPRi表示为当水质事件发生时水质指标i识别为异常点的概率,FPRi表示为正常运行状态下水质指标i识别为异常点的概率。TPi是当发生真实水质事件时水质指标i的残差识别为异常的个数,FNi是当发生真实水质事件时水质指标i的残差识别为正常的个数,FPi是正常运行状态下水质指标i的残差识别为异常的个数,TNi是正常运行状态下水质指i的残差识别为正常的个数。利用有污染事件的水质数据进行TPR与FPR的计算,通过统计每一种水质指标预测情况下的TP,FP,FN,TN的个数,利用式(5)和式(6)就可以计算出每一种水质的TPR和FPR。(7)利用时序贝叶斯原理进行水质异常事件的概率更新,当概率超过某一阈值时则对该水质指标进行事件报警,具体可以用以下表达式表示:P(Et)=α×P(Et)+(1-α)×P(Et-1)(10)式中,Ot表示为t时刻残差检测为异常点情况;表示为t时刻残差检测为正常的情况;Et表示为t时刻真实发生水质事件的情况;P(Et)表示为在t时刻模型预测的真实会发生水质异常事件的概率;α为光滑系数,α∈[0.3,0.9];为防止快速收敛,给定P(Et)的上下界P1,P0,初始时刻给定事件发生的概率为P0,初始给定事件发生的概率很小,同时为了防止概率公式更新时收敛到0,取一个合适的概率下界P0∈[10-6,10-4],为防止概率最终收敛到1,给定一个较高的上界P1∈[0.90,0.98];根据概率的定义可以得到,P(O|E)=TPR,P(Et(i))为利用指标i识别为水质异常事件的概率,E't(i)为指标i发生水质异常事件报警的指示函数,当E't(i)=1时表示水质指标i在t时刻为报警项,E't(i)=0表示水质指标i在t时刻为正常值,P2为指标发生异常的一个概率阈值。(8)同一时刻内统计多个指标的报警情况,设置一个指标报警数目的一个阈值m,当水质指标的报警数目n不小于m时,给出最终模型的报警信号,并给出水质异常事件的发生概率P'(Et)及异常水质指标,具体可用以下表达式表达:Pmax=max{P(Et(i))>P2}(14)Pmin=min{P(Et(i))>P2}(15)<本文档来自技高网
...

【技术保护点】
1.一种基于管网多元水质时序数据的水质异常事件识别预警方法,其特征在于,包括以下步骤:/n(1)对SCADA采集的监测点的水质数据进行预处理,模拟出模拟水质异常事件数据;/n(2)对预处理过的正常运行状态下的多个水质指标建立预测回归模型,每一种水质指标的预测均采用相同形式的输入输出格式,每一种水质数据的预测都采用多种机器学习方法进行下一时段水质指标值的预测;通过不同的机器学习回归方法得到不同指标的时段的预测值,利用水质指标的真实值与预测值的决定系数R

【技术特征摘要】
1.一种基于管网多元水质时序数据的水质异常事件识别预警方法,其特征在于,包括以下步骤:
(1)对SCADA采集的监测点的水质数据进行预处理,模拟出模拟水质异常事件数据;
(2)对预处理过的正常运行状态下的多个水质指标建立预测回归模型,每一种水质指标的预测均采用相同形式的输入输出格式,每一种水质数据的预测都采用多种机器学习方法进行下一时段水质指标值的预测;通过不同的机器学习回归方法得到不同指标的时段的预测值,利用水质指标的真实值与预测值的决定系数R2的值来评价回归预测模型的性能,保存每一种水质指标预测较好的机器学习回归预测模型,
(3)选择步骤(2)中每种水质指标的回归预测模型模型训练较好的模型进行集成,构建集成学习Stacking模型,将优选的回归模型进行优选后,stacking作为最终的回归预测模型;
(4)将步骤(2)中各水质指标的预测值与真实值进行残差计算,得到残差分布,确定残差分布的标准差;
(5)对步骤(3)得到的回归预测模型进行评价,选择合适的算数乘子,将其与残差分布标准差相乘作为阈值,当残差的绝对值超出阈值后作为一初始的异常点识别,该关系采用以下公式表示:
γi=Sd(ERi)×muli(3)



式中,γi为水质指标i的残差阈值;Sd(ERi)是步骤(4)中所得到水质指标i的残差分布的标准差;muli是确定水质指标i残差阈值时需要确定的算数乘子;I[ERi(t)]为指示函数,I[ERi(t)]=1表示水质指标i在时间t时模型识别为水质异常点,I[ERi(t)]=0表示水质指标i在时间t时模型识别为水质正常点;
(6)步骤(5)中的算数乘子的确定需要进行循环寻优,在(0,20)的范围内选择最优的算数乘子,确定的原则是让是让TPR尽可能大,FPR尽可能小,






式中,TPRi表示为当水质事件发生时水质指标i识别为异常点的概率,FPRi表示为正常运行状态下水质指标i识别为异常点的概率;TPi是当发生真实水质事件时水质指标i的残差识别为异常的个数,FNi是当发生真实水质事件时水质指标i的残差识别为正常的个数,FPi是正常运行状态下水质指标i的残差识别为异常的个数,TNi是正常运行状态下水质指i的残差识别为正常的个数;
利用有污染事件的水质数据进行TPR与FPR的计算,通过统计每一种水质指标预测情况下的TP,FP,FN,TN的个数,采用式(5)和式(6)计算得到每一种水质的TPR和FPR;
(7)利用时序贝叶斯原理进行水质异常事件的概率更新,当概率超过某一阈值时则对该水质指标进行事件报警,具体可以用以下表达式表示:









P(Et)=α×P(Et)+(1-α)×P(Et-1)(10)






式中,Ot表示为t时刻残差检测为异常点情况;表示为t时刻残差检测为正常的情况;Et表示为t时刻真实发生水质事件的情况;P(Et)表示为在t时刻模型预测的真实会发生水质异常事件的概率;α为光滑系数;为防止快速收敛,给定P(Et)的上下界...

【专利技术属性】
技术研发人员:李子林刘海星刘双裴圣伟彭勇张弛
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1