基于特征扩张的融合神经网络的城市PM10浓度预测方法技术

技术编号:20020722 阅读:43 留言:0更新日期:2019-01-06 01:55
本发明专利技术涉及一种基于特征扩张的融合神经网络的城市PM10浓度预测方法,包括:步骤S1:基于特征扩张的栈式自编码器和LSTM网络,构建城市PM10浓度预测的模型;步骤S2:从污染物和气象的监测数据中选择训练数据和测试数据;步骤S3:利用训练数据对基于特征扩张的栈式自编码器进行训练;步骤S4:基于高斯函数对栈式自编码器的输出的特征向量进行处理,为不同城市的特征向量计算相应的影响权重,加权求和得到新的特征向量;步骤S5:将新的特征向量输入到LSTM中,进行模型的整体训练;步骤S6:将测试数据输入训练好的模型,衡量测试数据产生的预测结果的误差;步骤S7:将训练和微调好的模型用于空气污染物浓度预测。与现有技术相比,本发明专利技术具有预测准确等优点。

【技术实现步骤摘要】
基于特征扩张的融合神经网络的城市PM10浓度预测方法
本专利技术涉及一种PM10浓度预测方法,尤其是涉及一种基于特征扩张的融合神经网络的城市PM10浓度预测方法。
技术介绍
空气污染是日常生活中被广泛关注的问题,并且随着空气污染问题日益严重,空气污染物的种类日益繁多,空气污染物的形成和扩散的方也式愈加复杂,污染物浓度的预测不再是单点性的,而是具有动态的、区域联动性的。所以在当前形式下,为了做出更为精确的污染物浓度预测,预防重污染事件的发生,提升环境管理和决策水平,应充分利用监测到的污染物和气象大数据,充分挖掘和学习数据特征,并且充分考虑污染物浓度的关联性。空气污染物浓度预测是学术界研究的热点问题之一,目前的研究成果包括以唐晓等为代表的基于数值统计的方法,建立目标污染物浓度与其他污染物浓度之间的关系;MDong等为代表的基于概率分布的方法,将时间因素加入了模型训练,运用半隐马尔科夫法为不同浓度级别的PM2.5都训练出对应的模型;Balachandran等为代表的基于传统机器学习的方法,以历史的气象和污染物浓度数据为训练集和测试集,以BP神经网络为预测模型,建立空气污染物浓度预测体系。这些方法在以往环境形势简单,数据规模较小的情况下,发挥了长足的优势,然而在面临着海量污染物数据和气象数据的情况下,这些方法缺乏对数据特征的深度分析,无法充分学习数据特征,挖掘数据联系,同时,这些方法将污染物浓度变化视为离散型事件,不考虑且不能进行时间和空间上的关联分析,从而无法进行精确的污染物浓度预测。另一方面,考虑到用于空气污染物浓度预测的完备数据集较难获得,大部分存在特征缺失和特征维度不足的情况,导致预测模型无法充分学习数据特征和挖掘数据间的联系,从而无法做出准确的预测。目前学术界极少存在预测模型中对特征维度进行扩充的技术研究,然而这种技术对处理特征维度不足的问题十分有效。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于特征扩张的融合神经网络的城市PM10浓度预测方法。本专利技术的目的可以通过以下技术方案来实现:一种基于特征扩张的融合神经网络的城市PM10浓度预测方法,包括:步骤S1:基于特征扩张的栈式自编码器和LSTM网络,构建城市PM10浓度预测的模型;步骤S2:针对所构建的模型,从污染物和气象的监测数据中选择训练数据和测试数据;步骤S3:利用训练数据对基于特征扩张的栈式自编码器进行训练;步骤S4:基于高斯函数对栈式自编码器的输出的特征向量进行处理,为不同城市的特征向量计算相应的影响权重,加权求和得到新的特征向量;步骤S5:将所述新的特征向量输入到LSTM中,进行模型的整体训练;步骤S6:将测试数据输入训练好的模型,衡量测试数据产生的预测结果的误差,若误差超过阈值,则返回步骤S2,反之,则执行步骤S7;步骤S7:将训练和微调好的模型用于空气污染物浓度预测。所述模型包括:基于特征扩张的栈式自编码器,用于接收输入数据,进行特征维度扩充,挖掘和提取输入数据的重要特征;基于高斯函数的中间过程处理模块,用于为栈式自编码器的各项输出计算相应的影响权重,并将其与原输出加权求和形成新的输出;LSTM网络:用于接收栈式自编码器和中间过程处理模块处理后产生的新的输出,提取时间序列特征,产生最终预测结果。所述基于特征扩张的栈式自编码器,设有有3层自编码器,每层的节点数分别为64、128和256;所述LSTM网络为单层,神经元数量为128个。所述步骤S2具体包括:步骤S21:按照设定比例从污染物和气象的监测数据中选取训练数据和测试数据,并对选取的数据进行归一化的预处理,归一化处理后的数据为:其中:x'为归一化处理后的数据,μ为原始数据均值,σ为原始数据标准差,x为归一化处理前的数据;步骤S22:设置模型的误差阈值,将输入的训练数据的污染物数据和气象数据转化为二维矩阵,其中,矩阵的每一行为一个站点的各污染物信息和气象信息,每一列为指定的污染物信息或者指定的气象信息;步骤S23:将输入特征从二维矩阵拉平成用于输入到栈式自编码器中的一维向量。所述步骤S3具体包括:步骤S31:将被拉平成一维向量的多个城市的输入特征输入到栈式自编码器,以单独对栈式自编码器进行训练;步骤S32:栈式自编码器通过逐渐增加每层的节点数实现对输入特征的维度扩充,挖掘特征信息,并将训练之后产生的参数值和偏差值作为下一步模型整体训练时的初始值,其中损失函数采用如下重构误差:其中:y为模型训练后的最终输出,J(θ)为x,y的重构误差,θ为网络的参数集合,L(·)表示损失函数,D(·)为栈式自编码器的解码函数,E为栈式自编码器的编码函数,N为预测所用的历史数据总时长,i为样本序号。所述步骤S4具体包括:步骤S41:基于(t-D,…,t)时间段每个城市产生d的D个不同的一维输出向量,根据每个周边城市和目标城市之间的距离为它们计算相应的影响权重:e=A*exp(-B)其中:e为每个城市的影响权重,A为幅值,exp(·)为以自然常数为底的指数函数,B为自然对数的指数,σx为x样本的方差,σy为y样本的方差,(jd,wd)为周边城市各个观测站点的经纬度,(jd0,wd0)为待预测的目标城市的中心点坐标;步骤S42:根据得到的影响权重将得到的多个城市的向量融合成新的特征向量,作为LSTM网络的输入:In=e1*out1+e2*out2+...+en*outn+outtarget其中:In为融合结果,out1,out2,out3,...,outn,outtarget为周边城市和目标城市个城市的数据通过栈式自编码器产生的输出。所述步骤S5具体为:将训练好的栈式自编码器和未训练的LSTM结合,以中间处理的结果为LSTM的输入,进行整个模型的训练,整个模型训练的损失函数为:其中:为训练阶段的损失函数,θ为前一阶段训练好的参数集合,λ为非负超参数,为网络中连接权值的集合,ζ为比例参数;所述步骤S6具体包括:步骤S61:将测试数据输入训练好的模型,得到预测结果,步骤S62:将测试的预测结果与观测值作对比,运用相关系数和平均绝对误差衡量模型误差,若预测结果与观测值的误差在预先设定的阈值内,则执行步骤S7,否则返回步骤S2。所述相关系数为:其中:r(O,P)为观测值和预测值的相关系数,Cov(O,P)为观测值和预测值的协方差,Var[O],Var[P]分别是观测值和预测值的方差。其特征在于,所述平均绝对误差为:其中:MAE为平均绝对误差,i为时间序号,N为预测的总时长,P为预测值,O为观测值。与现有技术相比,本专利技术具有以下有益效果:1)并未将污染物的预测工作仅仅依赖于大量历史数据总结出的经验和历史经验归纳污染物的变化规律,从而能够充分考虑大气环境复杂多变这一问题。2)能够进行空气污染物浓度的联动性分析,不会忽略污染物浓度的时间和空间关联,能够很好地建立过去时间和未来时间的污染物浓度的联系,也能够很好地建立城市间污染物浓度的联系。3)有效解决了有关污染物浓度预测的数据集经常出现的不完备、特征维度不足的情况,有利于预测模型充分学习数据特征,做出更精确的预测。附图说明图1为本专利技术方法的主要步骤示意图;图2为本专利技术实施例的流程示意图;图3为本专利技术针对两种栈式自编码器的比较;图4为本专利技术本文档来自技高网
...

【技术保护点】
1.一种基于特征扩张的融合神经网络的城市PM10浓度预测方法,其特征在于,包括:步骤S1:基于特征扩张的栈式自编码器和LSTM网络,构建城市PM10浓度预测的模型;步骤S2:针对所构建的模型,从污染物和气象的监测数据中选择训练数据和测试数据;步骤S3:利用训练数据对基于特征扩张的栈式自编码器进行训练;步骤S4:基于高斯函数对栈式自编码器的输出的特征向量进行处理,为不同城市的特征向量计算相应的影响权重,加权求和得到新的特征向量;步骤S5:将所述新的特征向量输入到LSTM中,进行模型的整体训练;步骤S6:将测试数据输入训练好的模型,衡量测试数据产生的预测结果的误差,若误差超过阈值,则返回步骤S2,反之,则执行步骤S7;步骤S7:将训练和微调好的模型用于空气污染物浓度预测。

【技术特征摘要】
1.一种基于特征扩张的融合神经网络的城市PM10浓度预测方法,其特征在于,包括:步骤S1:基于特征扩张的栈式自编码器和LSTM网络,构建城市PM10浓度预测的模型;步骤S2:针对所构建的模型,从污染物和气象的监测数据中选择训练数据和测试数据;步骤S3:利用训练数据对基于特征扩张的栈式自编码器进行训练;步骤S4:基于高斯函数对栈式自编码器的输出的特征向量进行处理,为不同城市的特征向量计算相应的影响权重,加权求和得到新的特征向量;步骤S5:将所述新的特征向量输入到LSTM中,进行模型的整体训练;步骤S6:将测试数据输入训练好的模型,衡量测试数据产生的预测结果的误差,若误差超过阈值,则返回步骤S2,反之,则执行步骤S7;步骤S7:将训练和微调好的模型用于空气污染物浓度预测。2.根据权利要求1所述的一种基于特征扩张的融合神经网络的城市PM10浓度预测方法,其特征在于,所述模型包括:基于特征扩张的栈式自编码器,用于接收输入数据,进行特征维度扩充,挖掘和提取输入数据的重要特征;基于高斯函数的中间过程处理模块,用于为栈式自编码器的各项输出计算相应的影响权重,并将其与原输出加权求和形成新的输出;LSTM网络:用于接收栈式自编码器和中间过程处理模块处理后产生的新的输出,提取时间序列特征,产生最终预测结果。3.根据权利要求1所述的一种基于特征扩张的融合神经网络的城市PM10浓度预测方法,其特征在于,所述基于特征扩张的栈式自编码器,设有有3层自编码器,每层的节点数分别为64、128和256;所述LSTM网络为单层,神经元数量为128个。4.根据权利要求1所述的一种基于特征扩张的融合神经网络的城市PM10浓度预测方法,其特征在于,所述步骤S2具体包括:步骤S21:按照设定比例从污染物和气象的监测数据中选取训练数据和测试数据,并对选取的数据进行归一化的预处理,归一化处理后的数据为:其中:x'为归一化处理后的数据,μ为原始数据均值,σ为原始数据标准差,x为归一化处理前的数据;步骤S22:设置模型的误差阈值,将输入的训练数据的污染物数据和气象数据转化为二维矩阵,其中,矩阵的每一行为一个站点的各污染物信息和气象信息,每一列为指定的污染物信息或者指定的气象信息;步骤S23:将输入特征从二维矩阵拉平成用于输入到栈式自编码器中的一维向量。5.根据权利要求4所述的一种基于特征扩张的融合神经网络的城市PM10浓度预测方法,其特征在于,所述步骤S3具体包括:步骤S31:将被拉平成一维向量的多个城市的输入特征输入到栈式自编码器,以单独对栈式自编码器进行训练;步骤S32:栈式自编码器通过逐渐增加每层的节点数实现对输入特征的维度扩充,挖掘特征信息,并将训练之后产生的参数值和...

【专利技术属性】
技术研发人员:张波雍睿涵李美子倪琴
申请(专利权)人:上海师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1