一种基于生成对抗网络的深度学习水质指标预测方法技术

技术编号:27032334 阅读:36 留言:0更新日期:2021-01-12 11:15
本发明专利技术公开一种基于生成对抗网络的深度学习水质指标预测方法,首先,将获取到的水质指标历史数据按时间排列成时间序列数据,然后通过生成对抗网络对缺失值进行插值处理。其次,再对水质指标数据进行标准化处理,将水质时间序列数据按照预设的滑动窗口大小进行划分,转为有监督的数据。最后,输入LSTM神经网络模型,进行多步预测,最终获得水质指标预测结果。

【技术实现步骤摘要】
一种基于生成对抗网络的深度学习水质指标预测方法
本专利技术属于污水处理
,尤其涉及一种基于生成对抗网络的深度学习水质指标预测方法。
技术介绍
水质指标可以作为水污染程度判断的标准尺度。通过水质自动监测站采集水质指标数据,并对采集到的水质指标时间序列数据进行分析和预测,能够提前获得水质指标的变化趋势,进而为水资源的管理与决策提供支持。水质指标变化受诸多因素影响,如物理、化学、生物等,且水质预测变量之间存在复杂的非线性关系,没有特定的周期性和稳定性。传统的水质指标预测方法普遍采用机理模型或线性模型对水质指标进行预测。机理模型是通过求解数学方程来求解不同时刻不同位置的污染物浓度,需要的参数较多,且难以获得,建模过程复杂;而线性模型缺乏对水质指标非线性特征的分析,对非线性的关系存在局限性,限制了预测的精确度。另一方面,由于传感器的收集频率不同,导致水质指标两次有效观测值之间的时间间隔不一致,并且传感器可能出现损坏,或在传感器网络传输的过程中出现数据丢失的情况,导致有较多的缺失值,而传统插值方法难以对水质指标的时间序列进行有效地处理。近年来随着数据量的增多,深度学习越来越成为时间序列预测的主流算法,广泛应用于水质环境中。深度学习,是更加自动化的机器学习方法,它能通过非线性函数将原始数据进行组合,转化为更高层次、更抽象的数据表示,充分挖掘变量之间的关系。一般的深度网络,在处理时间序列数据时,不考虑相邻数据之间的相关性,而循环神经网络(RecurrentNeuralNetwork,RNN)则考虑到这一点,将前一时刻的神经单元的隐藏状态作为当前时刻的神经单元输入的一部分,形成反馈系统,有效地利用了数据之间的相关性,更适合时间序列数据的分析,大大提高了时间序列的预测精度。长短期记忆网络(LongShort-TermMemory,LSTM)是一种特殊的RNN模型,它解决了RNN不能处理长期依赖的问题,增强模型的预测能力。
技术实现思路
针对以上现有技术的不足,本专利技术提供一种基于生成对抗网络(GenerativeAdversarialNetworks,GAN)插值与基于ProfessorForcing模式训练的LSTM神经网络的水质指标预测方法。包括:基于GAN插值的水质时间序列预处理方案;基于ProfessorForcing模式训练的LSTM模型实现水质指标多步预测。本专利技术的目的通过以下技术方案来实现。一种基于生成对抗网络的深度学习水质指标预测方法,该方法包括如下的步骤:1)获取一条河流过去一段时间内由水质指标监测值组成的时间序列数据;2)通过GAN对数据进行插值处理;3)在2)的基础上,将处理后的数据进行标准化,再按预设的滑动窗口大小划分为多个特征序列,进而序列转化为有监督数据,之后划分训练集、验证集、测试集;4)在3)的基础上,将特征序列数据输入LSTM模型中,输出水质指标的未来一段时间的多个预测值;5)在4)的基础上,对这些预测值进行反标准化,从而获得真正的未来的水质指标预测值。附图说明图1一种基于生成对抗网络的深度学习水质指标预测方法组成示意图;图2GAN插值结构图;图3ProfessorForcing训练模式结构图。具体实施方式下面将参照附图来描述根据本专利技术实施例的一种基于GAN插值与ProfessorForcing训练的LSTM模型的水质指标预测方法,具体步骤如下:第一步,获取一条河过去一段时间内由水质指标监测值组成的时间序列数据。由于水质自动监测系统实际的监测频次在不同指标之间可能不一致,但通常为每4小时监测一次,因此在数据预处理阶段,统一调整为4小时等间隔的数据。第二步,将水质指标时间序列数据用GAN插值预处理。由于水质自动监测系统实际的监测频率不同指标之间可能存在不同,并且传感器可能损坏监测不到数据或是传感器网络传输的过程丢失数据,从而产生了比较多的缺失值。传统的插值方法分为删除策略、基于统计量填充、基于机器学习填充,这些方法没有关注时间信息,因此使用基于GAN的插值方法。图2为GAN插值结构图。GAN插值的原理如下:由于数据不完整导致两次有效观测值之间的时间间隔变化十分大,传统的GRU或LSTM单元不太适合这种场景,为了解决不规则时间间隔并且学习隐藏的信息,本专利技术使用一种特殊的,能够学习时间间隔不一致的变量之间关系的RNN单元,称为GRUI(GRUImputed)。其基本思想是如果变量缺失了一段时间,则过去的观测值的影响应随时间衰减,GRUI能够拟合过去数据的影响衰减。首先,通过一个时间间隔矩阵δ去记录两个有效观测值之间的时间间隔,公式如下:其中,M为Mask矩阵,表示在时间步ti,特征j是否为有效观测值,是则否则有了时间间隔矩阵δ之后,可以得到时间衰减向量β,用于控制过去观测值随时间的衰减,其范围通过指数函数控制在[0,1]之间,公式如下:其中,wβ为衰减向量的权重,bβ为偏置项。时间间隔越大δ越大,则衰减向量β越小,说明过去的观测值的影响越小。有了衰减向量β之后,更新GRU的隐藏单元时,通过衰减向量控制过去观测值的影响随时间增加而降低,更新过程如下:本网络与一般GAN的区别在于,本网络的目的是填充不完整的时间序列数据x,而不是单纯的只想生成符合分布的数据。因此尽管生成的样本符合真实样本分布,但是随机噪声z是从隐空间随机取样的,这意味着生成的样本可能随着z的改变而发生很大的变化,因此试图从隐空间找到一个最佳的随机向量z,让生成样本G(z)尽可能地接近真实样本x。通过真实样本x和生成样本G(z)之间的平方误差来表示重构误差(Reconstructionloss),表明G(z)和x之间的差距。Lr(z)=||x⊙M-G(z)⊙M||2生成网络的目的是让生成样本尽可能接近真实分布,而生成网络生成的样本的真实程度只能通过判别网络的结果获得,因此在训练生成网络时,联合判别网络的结果才能训练,其损失函数为:因此,生成网络的损失函数由两部分组成:Limputation(z)=Lr(z)+λLG(z)其中,LG代表生成样本G(z)的真实程度,Lr代表真实样本x和生成样本G(z)的相似程度,λ为超参,控制二者的比例。判别网络的损失函数为:在模型收敛后,用生成样本G(z)去代替原始样本x中的缺失值。第三步,标准化处理,并通过滑动窗口划分特征序列数据1)对上一步处理后的数据进行标准化。具体的公式如下:其中,xstd,i为标准化后的数值,xobs,i为初始值,μ为样本均值,σ为样本标准差。2)滑动窗口宽度设定为输入时间序列长度和预测时间序列的长度之和,使用滑动窗口截取输入值和预测值,进而将其转化为有监督数据。第四步,基于ProfessorForcing模式训练LSTM模型本专利技术使用一种特本文档来自技高网
...

【技术保护点】
1.一种基于生成对抗网络的深度学习水质指标预测方法,其特征在于,该方法包括如下步骤:/n1)获取某河流过去的水质指标历史数据组成时间序列数据;/n2)该数据通过生成对抗网络(Generative Adversarial Networks,GAN)进行插值处理;/n3)将插值处理后的数据进行标准化处理,再按预设的滑动窗口宽度划分,转化为有监督的特征序列数据;/n4)将特征序列数据输入到通过教授约束(Professor Forcing)模式训练的长短期记忆(Long Short Term Memory,LSTM)网络模型中,再对模型输出进行反标准化,从而获得未来的水质指标预测结果。/n

【技术特征摘要】
1.一种基于生成对抗网络的深度学习水质指标预测方法,其特征在于,该方法包括如下步骤:
1)获取某河流过去的水质指标历史数据组成时间序列数据;
2)该数据通过生成对抗网络(GenerativeAdversarialNetworks,GAN)进行插值处理;
3)将插值处理后的数据进行标准化处理,再按预设的滑动窗口宽度划分,转化为有监督的特征序列数据;
4)将特征序列数据输入到通过教授约束(ProfessorForcing)模式训练的长短期记忆(LongShortTermMemory,LSTM)网络模型中,再对模型输出进行反标准化,从而获得未来的水质指标预测结果。


2.根据权利要求1所述的一种基于生成对抗网络的深度学习水质指标预测方法,其特征在于,步骤2具体为:
首先,通过一个时间间隔矩阵δ去记录两个有效观测值之间的时间间隔,公式如下:



其中,M为Mask矩阵,表示在时间步ti,特征j是否为有效观测值,是则否则
基于时间间隔矩阵δ,得到时间衰减向量β,用于控制过去观测值随时间的衰减,其范围通过指数函数控制在[0,1]之间,公式如下:



其中,wβ为衰减向量的权重,bβ为偏置项。时间间隔越大δ越大,则衰减向量β越小,说明过去的观测值的影响越小。
基于衰减向量β,更新GRU的隐藏单元时,通过衰减向量控制过去观测值的影响随时间增加而降低,更新过程如下:



通过真实样本x和生成样本G(z)之间的平方误差来表示重构误差(ReconstructionLoss),表明G(z)和x之间的差距:
Lr(z)=||x⊙M-G(z)⊙M||2
生成网络生成的样本的真实程度需要通过判别网络的结果获得,因此在训练生成网络时,联合判别网络的结果才能训练,其损失函数为:



因此,生成网络的损失函数由两部分组成:
Limputation(z)=Lr(z)+λLG(z)
其中,LG代表生成样本G(z)的真实程度,Lr代表真实样本x和生成样本G(z)的相似程度,λ为超参,控制二者的比例。
判别网络...

【专利技术属性】
技术研发人员:毕敬王仔超乔俊飞
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1