一种基于多维度二次特征提取的多任务学习的空气质量预测方法技术

技术编号：26033855 阅读：45 留言：0更新日期：2020-10-23 21:11

本发明专利技术提出一种基于多维度二次特征提取的多任务学习的空气质量预测方法，所述方法包括获取数据、数据预处理、选取污染物、建立多维度二次特征提取的卷积神经网络模型和长短期记忆网络模型、建立多维度二次特征提取的多任务学习模型和验证步骤。本发明专利技术针对传统时空数据建模时仅考虑时间内部相关性和空间内部相关性，未考虑到时空之间的相关性的问题。本发明专利技术从空间、时间和时空三个角度考虑与污染物值相关的影响信息，通过多任务学习对多个时间、空间任务间的相互影响的学习来降低预测偏差，使得时间、空间模型的预测精度更准确。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多维度二次特征提取的多任务学习的空气质量预测方法
本专利技术属于空气质量预测
，特别是涉及一种基于多维度二次特征提取的多任务学习的空气质量预测方法。
技术介绍
近年来，由于能源消耗的增加，空气污染问题日益严重。空气质量预测是一项重要的建模任务，其对农业，水资源、运输等许多方面都具有重要影响，国家环保部门一直致力于解决空气质量问题。虽然在发现空气污染超标时，采取多种手段进行控制有一定的成效，但是目前的大气环境形势依然很严峻，污染物浓度预测对于严重污染事件的预警具有重要的意义和价值。然而，由于空气中包含多种污染物气体，而且，这些气体会受到空间、时间相关性的影响。此外，空气质量还受到气象条件，如：是否刮风、是否下雨、当地温度等条件的影响。因此，结合多种因素对空气质量进行预测是一个十分值得研究的问题。对空气质量预测已经提出了一些方法，可以将其分为三类，即确定性方法，统计学习方法和最近的深度学习方法。确定性方法通常结合气象排放和化学模型，以建立空气质量预测的数值函数。但是，这些数值函数是由许多因素建立的，这些因素要么不完整，要么不准确，从而导致相对较差的预测准确性。另外，这些模型具有很高的复杂度，因此依赖于许多计算能力。统计学习方法可分为参数方法和非参数方法。例如，基于分类、回归树(CART)和模糊逻辑提出了一些参数模型。尽管如此，问题仍然在于模型复杂性和计算可行性之间的权衡。利用机器学习方法进行空气质量预测己成为研究领域的热点之一。由于空气中污染物数据演变过程的动...

【技术保护点】
1.一种基于多维度二次特征提取的多任务学习的空气质量预测方法，其特征在于：具体包括以下步骤：/n步骤1、获取所有被预测站点S

【技术特征摘要】
1.一种基于多维度二次特征提取的多任务学习的空气质量预测方法，其特征在于：具体包括以下步骤：
步骤1、获取所有被预测站点Si的空气质量的数据集，其中，i＝1，...，n，n表示站点个数；所述数据集包括气象数据集和污染物数据集；
步骤2、对获取到的数据集进行数据预处理，再按比例将预处理后的数据集分为训练集{TSi|i＝1，...，n}和测试集{Vsi|i＝1，...，n}；
步骤3、选取要预测的污染物P；
步骤4、依次对所有被预测站点Si建立多维度二次特征提取的卷积神经网络模型和长短期记忆网络模型，所述卷积神经网络模型和长短期记忆网络模型的输入均为训练集{TSi|i＝1，...，n}，将污染物P在多维度二次特征提取的卷积神经网络模型上预测得到的预测值作为多维度二次特征提取的卷积神经网络模型的输出，将污染物P在长短期记忆网络模型上预测得到的预测值作为长短期记忆网络模型的输出；其中，t表示时间，H表示滑动窗口大小；
步骤5、构建基于多维度二次特征提取的多任务学习模型，将所有站点的所述污染物P在多维度二次特征提取的卷积神经网络模型上预测得到的预测值和污染物P在长短期记忆网络模型上预测得到的预测值作为多任务学习模型的输入，输出即为污染物P的预测结果，从而得到了训练好的基于多维度二次特征提取的多任务学习模型；
步骤6、将测试集{VSi|i＝1，...，n}输入到已经训练好的基于多维度二次特征提取的多任务学习模型中，输出为污染物P的预测值

2.根据权利要求1所述的方法，其特征在于：所述对获取到的数据集进行数据预处理具体为：
步骤2.1：将所述数据集中含有取值为空或取值为非法值的行删除；
步骤2.2：在连续的三个时间点内，对于同一特征，将特征值连续缺失数量大于二个的行删除，将特征值仅缺失一个的行用均值法进行补齐，将特征值仅缺失二个的行用线性插值法进行补齐。

3.根据权利要求1所述的方法，其特征在于：在步骤4中，依次对所有被预测站点Si的污染物P进行污染物相关性分析，具体为：
步骤4.1：在横坐标为时间，纵坐标为污染物浓度值的同一平面直角坐标系中，对所述训练集{TSi|i＝1，...，n}所对应的每个被预测站点{Si|i＝1，...，n}中的每列污染物特征进行绘制折线图，通过分析不同折线的整体走势，初步排除掉与步骤3中选取的污染物P明显不相关的污染物特征，余下待判定具体相关性的污染物特征；
步骤4.2：计算步骤4.1中污染物特征与污染物P之间的皮尔逊相关系数，根据所求皮尔逊相关系数的值，对污染物特征与污染物P的相关性进行评级，得到对应六个等级{li|i＝1，2，...，6}的污染物特征集{Ui|i＝1，2，...，6}，相关性为：l1≥l2≥l3≥l4≥l5≥l6。

4.根据权利要求3所述的方法，其特征在于：所述多维度二次特征提取的卷积神经网络模型的学习过程为：
步骤4.3：将t时刻，被预测站点Si的污染物P的浓度值置于第一层卷积神经网络的中心位置A；
步骤4.4：将步骤4.2中相关性评级为l1的污染物特征集U1在t时刻的浓度值，放在最靠近A的位置；将相关性评级为l2的污染物特征集U2在t时刻的浓度值，放在第二靠近A的位置；以此类推，相关性评级为l6的污染物特征集U6在t时刻的浓度...

【专利技术属性】
技术研发人员：韩启龙，门瑞，陈睿，宋洪涛，张可佳，李洪坤，张育怀，李一豪，肖世桐，李佳航，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：黑龙江;23

全部详细技术资料下载我是这个专利的主人