System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多站点的大气污染并行预测方法技术_技高网

一种多站点的大气污染并行预测方法技术

技术编号:41311391 阅读:4 留言:0更新日期:2024-05-13 14:54
本发明专利技术公开了一种多站点的大气污染并行预测方法,属于时间序列预测技术领域。本发明专利技术以多个气象监测站的数据为原始数据进行缺失值和异常值的处理,接着对所有站点使用改进MeanShift算法划分若干类别,根据综合聚类结果设置若干Mul‑Mixer模型,在Mul‑Mixer模型中使用特征重构层对同类别站点数据进行站点、时间、属性三个不同角度的特征提取并完成序列重构,然后通过多个内部残差连接的特征学习块进行学习,最后进行时间投影和属性投影,完成对未来时间段下该区域所有站点污染物变化情况的预测。本发明专利技术可以高效地对多个存在空间联系的站点并行推理,降低了输入数据组合难度,减少了训练模型的数量,提升了预测结果的精度。

【技术实现步骤摘要】

本专利技术涉及时间序列预测,更具体地说,涉及一种多站点的大气污染并行预测方法


技术介绍

1、时间序列预测是一个备受关注的研究领域,现实中有很多时间序列预测的场景。然而,传统的时间序列预测模型更多偏向关注于单个序列的预测情况,忽视了相关序列对单个序列的影响。就传统的时空间场景下的序列预测问题而言,主流的预测模型分为两类,一类是基于卷积神经网络cnn的预测模型,例如cnn-lstm、cnn-gru、autoencoder-lstm等,这些模型主要特点是使用卷积神经网络进行空间特征的提取,进而使用组合的时间序列预测模型完成预测。另一类是基于图卷积神经网络gcn的预测模型,这类模型主要特点与上述卷积神经网络相同,唯一的区别在于对多个序列的处理方式不同。假设在历史时间p上有m个时间序列,每个序列含有n个属性,卷积神经网络通常会将输入视为一个有p个通道,大小为m*n的图像进行空间特征提取;图卷积神经网络通常则要求提供每个时间点上由m个序列对应结点构成的图(graph),即提供一个形状为(m,m)的邻接矩阵,而难点在于如何合理地利用先验知识去构造这个矩阵。

2、目前,越来越多的学者开始投入精力到研究时空间序列预测问题中。如针对城市移动网络基站资源调度问题,huang等人利用gcn获取基站之间的空间关联特征,通过lstm对时序特征进行建模,提出了gcn-lstm模型,实证较传统方法具有更优的性能。ji等人结合k-medoids聚类算法,使用cnn-lstm模型对城市电力负荷数据进行仿真验证,提升了预测精度。lin等人对常用的convlstm模型进行了创新,添加了自注意力模块,在几个数据集上的效果优于传统的时间预测模型。

3、但是目前的大量研究仍存在以下三个问题:首先是空间特征提取的有效性难以保证,卷积神经网络的普用性强但是难以提取序列间的明确关系,而图卷积神经网络的效果极其依赖原始图的构造情况;其次是模型训练问题,多数模型采用的时序预测模型是循环神经网络rnn及其变体,这些基于循环神经网络的模型的计算效率较低且会在更新模型参数时产生梯度消失或梯度爆炸问题,不利于进一步训练;最后是多数模型仅致力于预测产生单序列的预测结果,而多序列并行预测的模型较少且多为依赖先验知识的图神经网络,模型效果随图结构构造和数据集质量产生较大波动,仍存在改进的空间。


技术实现思路

1、1.专利技术要解决的技术问题

2、针对现有的时空间预测模型存在的空间特征提取有效性、模型训练以及多序列并行预测问题,本专利技术提出了一种多站点的大气污染并行预测方法,本专利技术对大气污染原始数据使用鲁棒性强的随机森林模型进行数据修补从而完成数据质量提升,使用改进meanshift算法进行多次聚类,并且通过排序和站点融合产生基于历史数据所有时间长度下的综合站点分类,最大化同类站点之间的内部联系,并设计mul-mixer模型,有效提升模型对空间特征的提取能力,使用早退策略训练产生不同站点的最终模型权重,提升模型训练的速度和精度,最终产生的预测模型可以有效地对多个站点进行并行推理。

3、2.技术方案

4、为达到上述目的,本专利技术提供的技术方案为:

5、本专利技术的一种多站点的大气污染并行预测方法,其步骤为:

6、s1、对原始多站点数据进行遍历检查,选取无缺失值的数据训练随机森林模型;

7、s2、遍历所有数据行,使用拉以达法则判断存在异常值的数据行,标记存在缺失值的数据行,使用线性平滑方法和步骤s1所得的随机森林模型对数据行中的异常值和缺失值进行预测并代替填补;

8、s3、将步骤s2所得的完整数据,按比例划分为训练集和验证集;

9、s4、对步骤s3所产生的训练集数据使用改进meanshift聚类算法,将所有站点按多次聚类的结果综合产生分组标签,设计mul-mixer模型,并对应每组数据设置mul-mixer模型的参数;

10、s5、利用步骤s4所得的多组数据和定义的mul-mixer模型,使用训练集训练模型得到模型权重,使用验证集获取模型评分,最后使用早退策略控制训练过程获取模型最终权重;

11、s6、加载权重文件,按照划分的分组进行大气污染物多站点并行预测。

12、更进一步地,步骤s2中,根据拉以达法则计算各站点下所有属性的均值和标准差,将超过均值加减三倍标准差的值标记为异常值,并将nan和空白值标记为缺失值;对连续的异常值和缺失值,使用线性平滑方法填补处理;对只有单独属性存在异常值和缺失值的数据行,使用对应该属性训练的随机森林模型进行预测填补。

13、更进一步地,步骤s4中,设置时间长度l,将所有站点数据按时间长度l裁剪为n份子数据集,并对所有子数据集使用传统meanshift方法产生多次聚类结果,对所有聚类结果按单个站点为单位统计与所有其他站点划分为同类的次数并降序排序,之后首次遍历排序结果并将划分到同类次数最多的站点组成一个分组,同时将这些站点从排序结果中移出;后续不断多轮遍历剩余站点,按其站点对应的分类结果中最高同类次数站点,纳入相同的分组,最终产生改进meanshift聚类算法的分组标签。

14、更进一步地,所述的mul-mixer模型包括重构输入层、残差学习块和投影层,重构输入层、残差学习块、投影层依次连接,原始多个时间序列经重构输入层处理产生重构输入序列refineseries;重构输入序列refineseries经残差学习块完成序列、时间、属性三个维度的学习产生结果result,后经投影层进行时间投影和属性投影获得最终的预测结果predict。

15、更进一步地,所述的重构输入层设置特征重构层,原始多个时间序列经过特征重构层中最大池化、平均池化和对应的不同共享线性层后求和产生时间步重构特征rt、序列重构特征rs和属性重构特征rd,对时间步重构特征rt、序列重构特征rs和属性重构特征rd进行矩阵乘法,最后与原始输入进行逐元素乘积,产生最终的重构输入序列refineseries。

16、更进一步地,所述的残差学习块包括多个顺序相连的特征学习块,单个特征学习块进行多次残差连接,完成序列、时间、属性三个维度的学习。

17、更进一步地,所述的残差学习块包括4个顺序相连的特征学习块。

18、更进一步地,所述的投影层进行时间投影和属性投影的过程如下:

19、predict=time projection(attr projection(result))

20、其中,attr projection为一个映射,完成从data个属性到targetdata个属性的转换,time projection完成从历史时间timestep到预测的未来时间段futuretime的转化,从而获得最终的预测结果predict。

21、更进一步地,属性投影attr projection为一个含有relu激活函数的线性层,时间投影time projection为本文档来自技高网...

【技术保护点】

1.一种多站点的大气污染并行预测方法,其特征在于,其步骤为:

2.根据权利要求1所述的一种多站点的大气污染并行预测方法,其特征在于:步骤S2中,根据拉以达法则计算各站点下所有属性的均值和标准差,将超过均值加减三倍标准差的值标记为异常值,并将Nan和空白值标记为缺失值;对连续的异常值和缺失值,使用线性平滑方法填补处理;对只有单独属性存在异常值和缺失值的数据行,使用对应该属性训练的随机森林模型进行预测填补。

3.根据权利要求2所述的一种多站点的大气污染并行预测方法,其特征在于:步骤S4中,设置时间长度L,将所有站点数据按时间长度L裁剪为N份子数据集,并对所有子数据集使用传统MeanShift方法产生多次聚类结果,对所有聚类结果按单个站点为单位统计与所有其他站点划分为同类的次数并降序排序,之后首次遍历排序结果并将划分到同类次数最多的站点组成一个分组,同时将这些站点从排序结果中移出;后续不断多轮遍历剩余站点,按其站点对应的分类结果中最高同类次数站点,纳入相同的分组,最终产生改进MeanShift聚类算法的分组标签。

4.根据权利要求1-3任一项所述的一种多站点的大气污染并行预测方法,其特征在于:所述的Mul-Mixer模型包括重构输入层、残差学习块和投影层,重构输入层、残差学习块、投影层依次连接,原始多个时间序列经重构输入层处理产生重构输入序列RefineSeries;重构输入序列RefineSeries经残差学习块完成序列、时间、属性三个维度的学习产生结果Result,后经投影层进行时间投影和属性投影获得最终的预测结果Predict。

5.根据权利要求4所述的一种多站点的大气污染并行预测方法,其特征在于:所述的重构输入层设置特征重构层,原始多个时间序列经过特征重构层中最大池化、平均池化和对应的不同共享线性层后求和产生时间步重构特征RT、序列重构特征RS和属性重构特征RD,对时间步重构特征RT、序列重构特征RS和属性重构特征RD进行矩阵乘法,最后与原始输入进行逐元素乘积,产生最终的重构输入序列RefineSeries。

6.根据权利要求5所述的一种多站点的大气污染并行预测方法,其特征在于:所述的残差学习块包括多个顺序相连的特征学习块,单个特征学习块进行多次残差连接,完成序列、时间、属性三个维度的学习。

7.根据权利要求6所述的一种多站点的大气污染并行预测方法,其特征在于:所述的残差学习块包括4个顺序相连的特征学习块。

8.根据权利要求6所述的一种多站点的大气污染并行预测方法,其特征在于:所述的投影层进行时间投影和属性投影的过程如下:

9.根据权利要求8所述的一种多站点的大气污染并行预测方法,其特征在于:属性投影Attr Projection为一个含有Relu激活函数的线性层,时间投影Time Projection为一个不含激活函数的线性层。

10.根据权利要求9所述的一种多站点的大气污染并行预测方法,其特征在于:步骤S5中,设置训练轮次epoch为300,梯度更新算法为Adam优化器,batch-size为16,学习率为0.0001,早退最大轮次数为10。

...

【技术特征摘要】

1.一种多站点的大气污染并行预测方法,其特征在于,其步骤为:

2.根据权利要求1所述的一种多站点的大气污染并行预测方法,其特征在于:步骤s2中,根据拉以达法则计算各站点下所有属性的均值和标准差,将超过均值加减三倍标准差的值标记为异常值,并将nan和空白值标记为缺失值;对连续的异常值和缺失值,使用线性平滑方法填补处理;对只有单独属性存在异常值和缺失值的数据行,使用对应该属性训练的随机森林模型进行预测填补。

3.根据权利要求2所述的一种多站点的大气污染并行预测方法,其特征在于:步骤s4中,设置时间长度l,将所有站点数据按时间长度l裁剪为n份子数据集,并对所有子数据集使用传统meanshift方法产生多次聚类结果,对所有聚类结果按单个站点为单位统计与所有其他站点划分为同类的次数并降序排序,之后首次遍历排序结果并将划分到同类次数最多的站点组成一个分组,同时将这些站点从排序结果中移出;后续不断多轮遍历剩余站点,按其站点对应的分类结果中最高同类次数站点,纳入相同的分组,最终产生改进meanshift聚类算法的分组标签。

4.根据权利要求1-3任一项所述的一种多站点的大气污染并行预测方法,其特征在于:所述的mul-mixer模型包括重构输入层、残差学习块和投影层,重构输入层、残差学习块、投影层依次连接,原始多个时间序列经重构输入层处理产生重构输入序列refineseries;重构输入序列refineseries经残差学习块完成序列、时间、属性三个维度的学习产生结果result,后经投影层进行时间投影和属性投影...

【专利技术属性】
技术研发人员:陶陶张思涵
申请(专利权)人:安徽工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1