一种基于多维度二次特征提取的多任务学习的空气质量预测方法技术

技术编号:26033855 阅读:45 留言:0更新日期:2020-10-23 21:11
本发明专利技术提出一种基于多维度二次特征提取的多任务学习的空气质量预测方法,所述方法包括获取数据、数据预处理、选取污染物、建立多维度二次特征提取的卷积神经网络模型和长短期记忆网络模型、建立多维度二次特征提取的多任务学习模型和验证步骤。本发明专利技术针对传统时空数据建模时仅考虑时间内部相关性和空间内部相关性,未考虑到时空之间的相关性的问题。本发明专利技术从空间、时间和时空三个角度考虑与污染物值相关的影响信息,通过多任务学习对多个时间、空间任务间的相互影响的学习来降低预测偏差,使得时间、空间模型的预测精度更准确。

【技术实现步骤摘要】
一种基于多维度二次特征提取的多任务学习的空气质量预测方法
本专利技术属于空气质量预测
,特别是涉及一种基于多维度二次特征提取的多任务学习的空气质量预测方法。
技术介绍
近年来,由于能源消耗的增加,空气污染问题日益严重。空气质量预测是一项重要的建模任务,其对农业,水资源、运输等许多方面都具有重要影响,国家环保部门一直致力于解决空气质量问题。虽然在发现空气污染超标时,采取多种手段进行控制有一定的成效,但是目前的大气环境形势依然很严峻,污染物浓度预测对于严重污染事件的预警具有重要的意义和价值。然而,由于空气中包含多种污染物气体,而且,这些气体会受到空间、时间相关性的影响。此外,空气质量还受到气象条件,如:是否刮风、是否下雨、当地温度等条件的影响。因此,结合多种因素对空气质量进行预测是一个十分值得研究的问题。对空气质量预测已经提出了一些方法,可以将其分为三类,即确定性方法,统计学习方法和最近的深度学习方法。确定性方法通常结合气象排放和化学模型,以建立空气质量预测的数值函数。但是,这些数值函数是由许多因素建立的,这些因素要么不完整,要么不准确,从而导致相对较差的预测准确性。另外,这些模型具有很高的复杂度,因此依赖于许多计算能力。统计学习方法可分为参数方法和非参数方法。例如,基于分类、回归树(CART)和模糊逻辑提出了一些参数模型。尽管如此,问题仍然在于模型复杂性和计算可行性之间的权衡。利用机器学习方法进行空气质量预测己成为研究领域的热点之一。由于空气中污染物数据演变过程的动态性和复杂性,这些数据又是训练预测模型非常重要的参数,不同污染物的浓度值变化存在着相似相关性,甚至相应变化趋势的相似相关性极大。目前都是将空间相关性和时间相关性作为分开独立的个体进行预测,并没有发现二者之间的相互联系同样影响着预测的准确性。
技术实现思路
本专利技术目的是为了解决在预测空气质量时,一般考虑的空间相关性维度较低,且时间与空间二者的相关性考虑的不充分的问题,提出了一种基于多维度二次特征提取的多任务学习的空气质量预测方法。本专利技术是通过以下技术方案实现的,本专利技术提出一种基于多维度二次特征提取的多任务学习的空气质量预测方法,具体包括以下步骤:步骤1、获取所有被预测站点Si的空气质量的数据集,其中,i=1,...,n,n表示站点个数;所述数据集包括气象数据集和污染物数据集;步骤2、对获取到的数据集进行数据预处理,再按比例将预处理后的数据集分为训练集{TSi|i=1,...,n}和测试集{VSi|i=1,...,n};步骤3、选取要预测的污染物P;步骤4、依次对所有被预测站点Si建立多维度二次特征提取的卷积神经网络模型和长短期记忆网络模型,所述卷积神经网络模型和长短期记忆网络模型的输入均为训练集{TSi|i=1,...,n},将污染物P在多维度二次特征提取的卷积神经网络模型上预测得到的预测值作为多维度二次特征提取的卷积神经网络模型的输出,将污染物P在长短期记忆网络模型上预测得到的预测值作为长短期记忆网络模型的输出;其中,t表示时间,H表示滑动窗口大小;步骤5、构建基于多维度二次特征提取的多任务学习模型,将所有站点的所述污染物P在多维度二次特征提取的卷积神经网络模型上预测得到的预测值和污染物P在长短期记忆网络模型上预测得到的预测值作为多任务学习模型的输入,输出即为污染物P的预测结果,从而得到了训练好的基于多维度二次特征提取的多任务学习模型;步骤6、将测试集{VSi|i=1,...,n}输入到已经训练好的基于多维度二次特征提取的多任务学习模型中,输出为污染物P的预测值进一步地,所述对获取到的数据集进行数据预处理具体为:步骤2.1:将所述数据集中含有取值为空或取值为非法值的行删除;步骤2.2:在连续的三个时间点内,对于同一特征,将特征值连续缺失数量大于二个的行删除,将特征值仅缺失一个的行用均值法进行补齐,将特征值仅缺失二个的行用线性插值法进行补齐。进一步地,在步骤4中,依次对所有被预测站点Si的污染物P进行污染物相关性分析,具体为:步骤4.1:在横坐标为时间,纵坐标为污染物浓度值的同一平面直角坐标系中,对所述训练集{TSi|i=1,...,n}所对应的每个被预测站点{Si|i=1,...,n}中的每列污染物特征进行绘制折线图,通过分析不同折线的整体走势,初步排除掉与步骤3中选取的污染物P明显不相关的污染物特征,余下待判定具体相关性的污染物特征;步骤4.2:计算步骤4.1中污染物特征与污染物P之间的皮尔逊相关系数,根据所求皮尔逊相关系数的值,对污染物特征与污染物P的相关性进行评级,得到对应六个等级{li|i=1,2,...,6}的污染物特征集{Ui|i=1,2,...,6},相关性为:l1≥l2≥l3≥l4≥l5≥l6。进一步地,所述多维度二次特征提取的卷积神经网络模型的学习过程为:步骤4.3:将t时刻,被预测站点Si的污染物P的浓度值置于第一层卷积神经网络的中心位置A;步骤4.4:将步骤4.2中相关性评级为l1的污染物特征集U1在t时刻的浓度值,放在最靠近A的位置;将相关性评级为l2的污染物特征集U2在t时刻的浓度值,放在第二靠近A的位置;以此类推,相关性评级为l6的污染物特征集U6在t时刻的浓度值,放在最远离A的位置;步骤4.5:对于第一层卷积神经网络的每个位置污染物特征的浓度值将其取出作为第二层卷积神经网络的中心位置B,将该污染物特征P′所在被预测站点Sj在t时刻的风速风向温度湿度和压强特征放在临近B的八个位置,空位补零,其中,j=1,...,n;步骤4.6:根据B所在被预测站点的地理位置,获取离中心位置B所在被预测站点欧氏距离相对较小的八个被预测站点,所述八个被预测站点的各自的中心位置放置各自站点相同污染物特征P′的浓度值,将相同污染物特征P′在t时刻的风速风向温度湿度和压强特征置于相对应被预测站点的中心位置的周围,空位补零,其中0≤k≤8;步骤4.7:训练第二层卷积神经网络,其中卷积核w=3x3,步长为3,进行二次卷积操作,得到位于中心位置的污染物特征浓度值的下一时刻的浓度预测值从而学习到不同站点浓度值相同污染物特征P′的气体流动相关性;步骤4.8:将步骤4.7中训练得到的预测值返回到第一层卷积神经网络的对应位置上,这样逐步更新第一层卷积神经网络每个位置上的值;再用卷积神经网络训练,其中,w=3x3,步长为1,进行一次卷积操作后传入全连接层,得到位于中心位置的被预测站点Si的污染物P的浓度值的预测值从而能够提取不同站点不同气体与当前预测污染物的气体流动相关性;步骤4.9:t后移一个时间单位,重复步骤4.3至步骤4.8共H次,得到被预测站点Si的污染物P的浓度值的预测值进一步地,在长短期记忆网络模型学习过程中,通过输入前H小时的污染物P的浓度值,计算得到被预测站点Si预测的第H+1小时的污染物P的浓度值的预测值。进一步地,计算过程中使用的公式本文档来自技高网
...

【技术保护点】
1.一种基于多维度二次特征提取的多任务学习的空气质量预测方法,其特征在于:具体包括以下步骤:/n步骤1、获取所有被预测站点S

【技术特征摘要】
1.一种基于多维度二次特征提取的多任务学习的空气质量预测方法,其特征在于:具体包括以下步骤:
步骤1、获取所有被预测站点Si的空气质量的数据集,其中,i=1,...,n,n表示站点个数;所述数据集包括气象数据集和污染物数据集;
步骤2、对获取到的数据集进行数据预处理,再按比例将预处理后的数据集分为训练集{TSi|i=1,...,n}和测试集{Vsi|i=1,...,n};
步骤3、选取要预测的污染物P;
步骤4、依次对所有被预测站点Si建立多维度二次特征提取的卷积神经网络模型和长短期记忆网络模型,所述卷积神经网络模型和长短期记忆网络模型的输入均为训练集{TSi|i=1,...,n},将污染物P在多维度二次特征提取的卷积神经网络模型上预测得到的预测值作为多维度二次特征提取的卷积神经网络模型的输出,将污染物P在长短期记忆网络模型上预测得到的预测值作为长短期记忆网络模型的输出;其中,t表示时间,H表示滑动窗口大小;
步骤5、构建基于多维度二次特征提取的多任务学习模型,将所有站点的所述污染物P在多维度二次特征提取的卷积神经网络模型上预测得到的预测值和污染物P在长短期记忆网络模型上预测得到的预测值作为多任务学习模型的输入,输出即为污染物P的预测结果,从而得到了训练好的基于多维度二次特征提取的多任务学习模型;
步骤6、将测试集{VSi|i=1,...,n}输入到已经训练好的基于多维度二次特征提取的多任务学习模型中,输出为污染物P的预测值


2.根据权利要求1所述的方法,其特征在于:所述对获取到的数据集进行数据预处理具体为:
步骤2.1:将所述数据集中含有取值为空或取值为非法值的行删除;
步骤2.2:在连续的三个时间点内,对于同一特征,将特征值连续缺失数量大于二个的行删除,将特征值仅缺失一个的行用均值法进行补齐,将特征值仅缺失二个的行用线性插值法进行补齐。


3.根据权利要求1所述的方法,其特征在于:在步骤4中,依次对所有被预测站点Si的污染物P进行污染物相关性分析,具体为:
步骤4.1:在横坐标为时间,纵坐标为污染物浓度值的同一平面直角坐标系中,对所述训练集{TSi|i=1,...,n}所对应的每个被预测站点{Si|i=1,...,n}中的每列污染物特征进行绘制折线图,通过分析不同折线的整体走势,初步排除掉与步骤3中选取的污染物P明显不相关的污染物特征,余下待判定具体相关性的污染物特征;
步骤4.2:计算步骤4.1中污染物特征与污染物P之间的皮尔逊相关系数,根据所求皮尔逊相关系数的值,对污染物特征与污染物P的相关性进行评级,得到对应六个等级{li|i=1,2,...,6}的污染物特征集{Ui|i=1,2,...,6},相关性为:l1≥l2≥l3≥l4≥l5≥l6。


4.根据权利要求3所述的方法,其特征在于:所述多维度二次特征提取的卷积神经网络模型的学习过程为:
步骤4.3:将t时刻,被预测站点Si的污染物P的浓度值置于第一层卷积神经网络的中心位置A;
步骤4.4:将步骤4.2中相关性评级为l1的污染物特征集U1在t时刻的浓度值,放在最靠近A的位置;将相关性评级为l2的污染物特征集U2在t时刻的浓度值,放在第二靠近A的位置;以此类推,相关性评级为l6的污染物特征集U6在t时刻的浓度...

【专利技术属性】
技术研发人员:韩启龙门瑞陈睿宋洪涛张可佳李洪坤张育怀李一豪肖世桐李佳航
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1