基于时间序列ARIMA模型取水异常检测方法与系统技术方案

技术编号:21771906 阅读:30 留言:0更新日期:2019-08-03 21:37
本发明专利技术公开了一种基于时间序列ARIMA模型取水异常检测方法与系统,属于水资源利用监测技术领域。在国家水资源的监控过程中,不同区域,不同取水点的有各自的取水数据,将这些数据作为可靠的时间序列模型的数据输入,并通对数据平稳性进行分析,并进行平稳性处理,将非平稳的时间序列转化为平稳的时间序列;通过自相关函数和偏相关函数分别求出自相关系数和偏相关系数,并通过ARIMA模型求出最后数据的拟合曲线,最后通过判断拟合数据和真实数据的残差是否符合高斯分布的3σ准则判断是否异常,对于异常值,可以通过拟合曲线给出修正值。本发明专利技术可以实现监测数据质量评价,并为数据完善过程提供参考修正值,有效提高了监测工作效率和质量。

Detection Method and System of Water Intake Anomaly Based on Time Series ARIMA Model

【技术实现步骤摘要】
基于时间序列ARIMA模型取水异常检测方法与系统
本专利技术涉及一种基于时间序列ARIMA模型取水异常检测的方法与系统,属于水资源使用监测

技术介绍
目前国家水资源监控能力建设项目一期建设水资源取用水监测点17000个左右,每年产生近1.5亿条监测记录,这些监测值存在超出预设极值等异常现象,也存在缺报漏报情况,出现的这些问题对后期水资源的使用,以及水资源的建设有很大的影响。目前对于海量监测数据的异常判别种类单一,仅依靠有限的业务规则和统计方法很难覆盖所有异常情况的数据,异常判别准确率不高。
技术实现思路
专利技术目的:针对现有技术存在的上述问题,本专利技术目的是提出一种基于时间序列ARIMA模型取水异常检测的方法与系统,提高异常数据判别的准确率,并可进一步提供异常数据的修正参考值。技术方案:为实现上述专利技术目的,本专利技术采用如下技术方案:一种基于时间序列ARIMA模型取水异常检测方法,主要包括如下步骤:(1)收集取水点的日取水量和小时取水量数据;(2)根据数据的业务逻辑规则对收集的数据进行预处理和清洗;(3)对日取水量的时间序列数据进行平稳性判断,若为非平稳序列数据则通过差分进行平稳性处理,否则不做处理;(4)对日取水量时间序列数据进行自相关系数和偏相关系数求解;(5)将步骤(3)中的差分次数以及步骤(4)中的自相关系数和偏相关系数分别作为ARIMA(p,d,q)模型中的参数d,p和q的值,通过拟合函数求解出日取水量时间序列数据的拟合曲线;(6)计算取水量原始数据与拟合曲线数据之间的残差,计算残差的均值μ,标准差σ,并检验残差是否符合统计方法中高斯分布的3σ准则,如果残差在区间(μ-3σ,μ+3σ)之间则为正常值,否则为异常值。在优选的实施方案中,步骤(6)中判断出原始数据为异常时,通过拟合曲线可以给出异常值的参考修正值。在优选的实施方案中,步骤(2)中对收集的数据进行预处理和清洗的步骤包括:步骤21:清洗取水量小于0的数据;步骤22:清洗取水量为空的值;步骤23:清洗取水量为NA的值;步骤24:清洗重复出现的值;步骤25:清洗日取水量数据比小时取水量推后的数据;步骤26:清洗当天的小时取水量累计值与当天日水量的数据不符。在优选的实施方案中,步骤(3)中包括:步骤31:通过单位根检验方法判断日取水量的时间序列数据的平稳性,如果通过单位根检验方法能够确定日取水量的时间序列数据具有平稳性,则进行步骤32;如果日取水量数据具有平稳性,则不需要进行处理,即可以知道ARIMA(p,d,q)模型中参数d的值为0;步骤32:通过差分方法对时间序列数据进行平稳性处理;每次差分后,判断差分后的取水时间序列数据是否为平稳性时间序列数据;如果为平稳性时间序列数据,则停止差分,此时ARIMA(p,d,q)模型中参数d的值为差分的次数,如果差分后,该时间序列仍然为非平稳性时间序列数据,则继续对该序列进行差分。在优选的实施方案中,步骤(4)中对日取水量时间序列数据的自相关系数和偏相关系数求解,包括:步骤41:输入平稳性的日取水量的时间序列的数据,通过自相关函数求出相应的自相关系数p;自相关函数曲线和置信区间上边线的交点的横坐标为参数p的值;步骤42:输入平稳性的日取水量的时间序列的数据,通过偏相关函数求出相应的偏相关系数q;偏向相关函数曲线和置信区间上边线的交点的横坐标为参数q的值。在优选的实施方案中,步骤(6)中对异常数据的判断,包括如下步骤:步骤61:根据原始的日取水量的取值和通过拟合函数的拟合的值进行作差,得出两者之间的残差;步骤62:通过对残差分析,求出残差的均值μ和标准差σ;步骤63:判断残差是否在区间(μ-3σ,μ+3σ)之间,若在该区间,则残差若对应的原始数据的为正常值,否则为异常值;步骤64:通过步骤63可以得出异常值对应的拟合曲线的值,则该值为异常值的参考修正值。基于相同的专利技术构思,本专利技术所述的一种基于时间序列ARIMA模型取水异常检测系统,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于时间序列ARIMA模型取水异常检测方法。有益效果:本专利技术采用的ARIMA模型可以拟合平稳性时间序列数据在某段时间的趋势,通过拟合曲线数据和原始数据作差可以得到残差,即残差可以抵消原始数据的趋势,将有趋势的点转化为离散的点,最后通过高斯分布的3σ准则判断出异常值。并且本专利技术可进一步依据拟合曲线提供异常值的参考修正值。与现有技术相比,本专利技术可以实现监测数据质量评价,并为数据完善过程提供参考修正值,有效提高了监测工作效率和质量。附图说明图1为本专利技术实施例的流程框架图。图2为本专利技术实施例中的日取水量散点图。图3为本专利技术实施例中的日取水量散点、均值和标准差图。图4为本专利技术实施例中的自相关函数图。图5为本专利技术实施例中的偏相关函数图。图6为本专利技术实施例中的日取水量原始数据和拟合数据对比图。图7为本专利技术实施例中的异常点判定结果图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。如图1所示,本专利技术实施例提供的一种基于时间序列ARIMA模型取水异常检测方法,包含下列六个主要部分(取其中具有代表性的取水点汕头市自来水总公司2013年度的日取水量作为实测):a)收集取水点的取水数据;b)对取得数据进行预处理和清洗;c)对数据进行平稳性判断和平稳性处理;d)对时间序列数据的自相关系数和偏相关系数求解;e)求解出拟合曲线;f)判断出异常数据,并给出参考值。上述各步骤具体描述如下。a)收集取水点的取水数据:使用取水设备收集该取水点2013年度的取水数据,取水数据包含该取水点的日取水量和每天的各小时取水量;b)对取得数据进行预处理和清洗:根据清洗的数据的原则,清洗取水量小于0的数据;清洗取水量为空的值;清洗取水量为NA的取水值;清洗重复出现的值;清洗小时取水量数据出现日期推后的数据;清洗当天的小时取水量累计值与当天日水量的数据不符的值。c)对汕头市自来水公司2013年度的日取水数据进行平稳性判断和平稳性处理;图2:绘制出汕头市自来水公司2013年度365天的日取水量的走势图;图3:通过绘制出以12天为一个滑动窗口日取水量的原始数据,均值和标准差的图像走势,可以判断出该年度的日取水量的数据的原始数据,均值,标准差都是平稳的,即该年度的日取水量数据为平稳性数据。为了进一步对判断该时间序列数据是否具有平稳性,对该取水的点所取得的时间序列的日取水量数据进行单位根检验,可以判断出该日取水量时时间序列数据为平稳性数据。通过观察日取水量数据的均值,标准差和通过单位根检验法都可以判断该取水点的日取水量的时间序列数据具有平稳性,则可以确定ARIMA模型中参数d取值为0;如果日取水数量据为非平稳性数据,则通过差分方法,进行平稳性处理,每次差分后都要进行平稳性检验,如果为平稳性数据,则差分次数为ARIMA(p,d,q)模型中的参数d的值,如果差分后的取水时间序列数据为非平稳性数列,则继续进行差分。d)对时间序列数据的自相本文档来自技高网...

【技术保护点】
1.一种基于时间序列ARIMA模型取水异常检测方法,其特征在于,包括如下步骤:(1)收集取水点的日取水量和小时取水量数据;(2)根据数据的业务逻辑规则对收集的数据进行预处理和清洗;(3)对日取水量的时间序列数据进行平稳性判断,若为非平稳序列数据则通过差分进行平稳性处理,否则不做处理;(4)对日取水量时间序列数据进行自相关系数和偏相关系数求解;(5)将步骤(3)中的差分次数以及步骤(4)中的自相关系数和偏相关系数分别作为ARIMA(p,d,q)模型中的参数d,p和q的值,通过拟合函数求解出日取水量时间序列数据的拟合曲线;(6)计算取水量原始数据与拟合曲线数据之间的残差,计算残差的均值μ,标准差σ,并检验残差是否符合统计方法中高斯分布的3σ准则,如果残差在区间(μ‑3σ,μ+3σ)之间则为正常值,否则为异常值。

【技术特征摘要】
1.一种基于时间序列ARIMA模型取水异常检测方法,其特征在于,包括如下步骤:(1)收集取水点的日取水量和小时取水量数据;(2)根据数据的业务逻辑规则对收集的数据进行预处理和清洗;(3)对日取水量的时间序列数据进行平稳性判断,若为非平稳序列数据则通过差分进行平稳性处理,否则不做处理;(4)对日取水量时间序列数据进行自相关系数和偏相关系数求解;(5)将步骤(3)中的差分次数以及步骤(4)中的自相关系数和偏相关系数分别作为ARIMA(p,d,q)模型中的参数d,p和q的值,通过拟合函数求解出日取水量时间序列数据的拟合曲线;(6)计算取水量原始数据与拟合曲线数据之间的残差,计算残差的均值μ,标准差σ,并检验残差是否符合统计方法中高斯分布的3σ准则,如果残差在区间(μ-3σ,μ+3σ)之间则为正常值,否则为异常值。2.根据权利要求1所述的基于时间序列ARIMA模型取水异常检测方法,其特征在于,步骤(6)中判断出原始数据为异常时,通过拟合曲线可以给出异常值的参考修正值。3.根据权利要求1所述的基于时间序列ARIMA模型取水异常检测方法,其特征在于,步骤(2)中对收集的数据进行预处理和清洗的步骤包括:步骤21:清洗取水量小于0的数据;步骤22:清洗取水量为空的值;步骤23:清洗取水量为NA的值;步骤24:清洗重复出现的值;步骤25:清洗日取水量数据比小时取水量推后的数据;步骤26:清洗当天的小时取水量累计值与当天日水量的数据不符。4.根据权利要求1所述的基于时间序列ARIMA模型取水异常检测方法,其特征在于,步骤(3)中包括:步骤31:通过单位根检验方法判断日取水量的时间序列数据的平稳性,如果通过单位根检验方法能够确定日取水量的时间序列数据具有平稳性,则进行步骤32;如果日取水量数据具有平稳性,则不需要进行处理,...

【专利技术属性】
技术研发人员:赵和松曾焱成建国张鹏程张建刚王涛王圆圆孙爱民
申请(专利权)人:水利部信息中心河海大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1