基于时序缺失感知和多源因素融合的空气质量集成预测方法技术

技术编号:34404677 阅读:19 留言:0更新日期:2022-08-03 21:49
本发明专利技术涉及一种基于时序缺失感知和多源因素融合的空气质量集成预测方法,属于空气质量预测技术领域,包括S1:对影响空气质量的气象因素、社会经济因素和AQI进行采集、预处理,建立时序和具有多源因素的数据集;S2:构建AD_LSTM模型,通过子空间分解和时间衰减函数构建数据缺失感知单元,解决历史空气质量指数AQI时序数据中的数据缺失问题,建立AQI随时间变化的波动趋势;S3:构建BPNN模型,建立气象因素/社会经济因素与AQI的映射关系;S4:利用协同注意力集成AD_LSTM模型和BPNN模型并训练;S5:利用训练好的集成模型,采用历史空气质量的变化趋势、气象因素、社会经济因素对空气质量进行综合研判。量进行综合研判。量进行综合研判。

【技术实现步骤摘要】
基于时序缺失感知和多源因素融合的空气质量集成预测方法


[0001]本专利技术属于空气质量预测
,涉及一种基于时序缺失感知和多源因素融合的空气质量集成预测方法。

技术介绍

[0002]在空气质量预测问题上,近些年出现了非常多的研究者。因为空气质量的好坏与诸多因素有关,如气象因素、社会经济因素和时间因素等,如何结合这些因素对空气质量进行预测是研究者们关注的重点问题。
[0003]研究者们对空气质量预测所使用的方法分为三种,分别为:确定性方法、机器学习方法和深度学习方法。确定性方法通过相关影响因素建立数值函数,这类方法通常适用于简单场景建模,当问题场景变得复杂起来就很难有很好的效果;机器学习方法如回归树、线性回归等,通过简单的参数更新来学习数据之间的关联性,但是这类方法很难在时间和准确性上做出平衡。
[0004]深度学习方法在近几年被应用最多,其中有人工神经网络、循环神经网络、卷积神经网络等方法。循环神经网络被用来学习历史空气质量数据中的时间相关性,人工神经网络和卷积神经网络通常被用来去提取气象等影响因素。由于空气质量所关联的因素有很多,集成多个模型去学习其中复杂的关联关系已然成为研究热点。但是由于监测器和人为收集原因,历史空气质量数据具有相当一部分的缺失数据,现有研究只是应用了简单插值方法,并没有过多提取缺失数据的信息。并且集成多个模型的方式也没有充分挖掘出多个模型在预测时所表现的作用。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种时序缺失感知和多源因素融合的空气质量集成预测方法,提高模型对多源数据的表征能力,使得模型对空气质量有一个更好的预测效果。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]一种基于时序缺失感知和多源因素融合的空气质量集成预测方法,包括以下步骤:
[0008]S1:对影响空气质量的气象因素、社会经济因素和历史空气质量指数AQI进行数据采集和分析,并进行数据预处理,建立时序和具有多源因素的数据集;
[0009]S2:构建基于时间衰减函数改进的长短记忆模型(简称AD_LSTM模型),通过子空间分解和时间衰减函数构建数据缺失感知单元,解决历史空气质量指数AQI时序数据中的数据缺失问题,建立AQI随时间变化的波动趋势;
[0010]S3:构建BP神经网络模型BPNN,建立气象因素和社会经济因素与AQI之间的映射关系;
[0011]S4:利用协同注意力集成AD_LSTM模型和BPNN模型,并进行集成模型的训练;
[0012]S5:利用训练好的集成模型,采用历史空气质量的变化趋势,以及气象因素和社会经济因素,对空气质量进行综合研判。
[0013]进一步,所述步骤S1具体包括以下步骤:
[0014]S11:对气象因素、社会经济因素和历史空气质量指数AQI进行数据采集,对采集到的数据进行数据预处理,其中包括缺失值处理和离群值处理,再采用最大最小归一化处理,所述最大最小归一化公式为:
[0015][0016]其中X
target
为最大最小规范后的数据,x式原始数据,x
min
和x
max
分别为原始数据中的最小值和最大值数据。
[0017]S12:然后对历史空气质量指数根据时间和所采集区域生成具有n个时刻m个采集区域的对应时序数据Y
T
,气象因素和社会经济因素作为多源因素数据X
C
,其中包括n个时刻m个采集区域的气象因素和社会经济因素数据,影响因素有k个;
[0018]S13:在S11和S12步骤数据采集和预处理后,建立时序和多源因素空气质量数据集以进行预测建模和训练。
[0019]进一步,步骤S12所述对数据进行缺失值处理,具体包括对具有缺失值的特征进行均值填充;
[0020]所述离群值处理具体包括:采用箱型图的方式对数据进行可视化统计,剔除其中明显偏离大部分数据的异常值。
[0021]进一步,所述步骤S2具体包括以下步骤:
[0022]S21:根据不同监测区域的历史空气质量指数AQI数据,按照监测时间排序生成对应区域的时间序列Y
T
,对AQI随时间的趋势变化规律进行分析,针对AQI时序中的缺失问题,结合LSTM模型的时序预测方法,构造基于时间衰减函数改进的长短记忆模型;
[0023]Y
T
=[y1,y2,...,y
n
‑1][0024]其中y
n
‑1代表第n

1时刻各个区域的空气质量指数,y
n
‑1表示为:
[0025][0026]其中代表第m个区域n

1时刻的空气质量指数;
[0027]LSTM模型通过输入门、遗忘门和输出门有选择性的让信息通过,将之前时刻的信息有选择的保存在当前时刻的细胞态中C
t
,具体的表示公式如下所示:
[0028]C
t
=f
t
*C
t
‑1+i
t
*C
[0029]h
t
=o
t
*tanh(C
t
)
[0030]其中f
t
表示遗忘门,负责对之前的信息进行部分舍弃,C
t
‑1表示上个时刻的长期记忆,输入门i
t
表示当前时刻的输入数据信息,C表示模型学习到时序数据待存入记忆状态的新信息,经过上述式子计算得到的C
t
为当前时刻所保存的长期记忆;输出门o
t
负责控制当前时刻输出信息,tanh为激活函数,经过输出门和当前时刻记忆状态计算出当前时刻的隐藏状态h
t

[0031]S22:AD_LSTM包含LSTM的输入门、遗忘门和输出门,在输入门、遗忘门和输出门之前加入子空间分解来对LSTM模型上一层传递过来的记忆状态进行矩阵分解,得到修正后记
忆状态矩阵
[0032]C
t

1S
=tanh(W
d
C
t
‑1+b
d
)
[0033]其中,W
d
,b
d
是可学习参数,C
t
‑1为循环神经网络上一层的记忆状态;
[0034]S23:在子空间分解之后加入以中间缺失时刻为权重的时间衰减函数,作用于经过矩阵分解学习后的记忆状态矩阵,具体公式如下:
[0035][0036]其中τ为可学习参数,Δt为中间缺失数据的时间,exp(.)为时间衰减函数,具体公式如下:
[0037]exp(x)=e
x
[0038]其中e为自然对数,x为函数的输入变量。
[0039]最后的记忆状态C
t
和隐藏状态h
t本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序缺失感知和多源因素融合的空气质量集成预测方法,其特征在于:包括以下步骤:S1:对影响空气质量的气象因素、社会经济因素和历史空气质量指数AQI进行数据采集和分析,并进行数据预处理,建立时序和具有多源因素的数据集;S2:构建基于时间衰减函数改进的长短记忆模型AD_LSTM,通过子空间分解和时间衰减函数构建数据缺失感知单元,解决历史空气质量指数AQI时序数据中的数据缺失问题,建立AQI随时间变化的波动趋势;S3:构建BPNN模型,建立气象因素和社会经济因素与AQI之间的映射关系;S4:利用协同注意力集成AD_LSTM模型和BPNN模型,并进行集成模型的训练;S5:利用训练好的集成模型,采用历史空气质量的变化趋势,以及气象因素和社会经济因素,对空气质量进行综合研判。2.根据权利要求1所述的基于时序缺失感知和多源因素融合的空气质量集成预测方法,其特征在于:所述步骤S1具体包括以下步骤:S11:对气象因素、社会经济因素和历史空气质量指数AQI进行数据采集,对采集到的数据进行数据预处理,其中包括缺失值处理和离群值处理,再采用最大最小归一化处理,所述最大最小归一化公式为:其中X
target
为最大最小规范后的数据,x式原始数据,x
min
和x
max
分别为原始数据中的最小值和最大值数据;S12:然后对历史空气质量指数根据时间和所采集区域生成具有n个时刻m个采集区域的对应时序数据Y
T
,气象因素和社会经济因素作为多源因素数据X
C
,其中包括n个时刻m个采集区域的气象因素和社会经济因素数据,影响因素有k个;S13:在S11和S12步骤数据采集和预处理后,建立时序和多源因素空气质量数据集以进行预测建模和训练。3.根据权利要求2所述的基于时序缺失感知和多源因素融合的空气质量集成预测方法,其特征在于:步骤S11所述对数据进行缺失值处理,具体包括:对具有缺失值的特征进行均值填充;所述离群值处理具体包括:采用箱型图的方式对数据进行可视化统计,剔除其中明显偏离大部分数据的异常值。4.根据权利要求1所述的基于时序缺失感知和多源因素融合的空气质量集成预测方法,其特征在于:所述步骤S2具体包括以下步骤:S21:根据不同监测区域的历史空气质量指数AQI数据,按照监测时间排序生成对应区域的时间序列Y
T
,对AQI随时间的趋势变化规律进行分析,针对AQI时序中的缺失问题,结合LSTM模型的时序预测方法,构造基于时间衰减函数改进的长短记忆模型;Y
T
=[y1,y2,...,y
n
‑1]其中y
n
‑1代表第n

1时刻各个区域的空气质量指数,y
n
‑1表示为:
其中代表第m个区域n

1时刻的空气质量指数;LSTM模型通过输入门、遗忘门和输出门有选择性的让信息通过,将之前时刻的信息有选择的保存在当前时刻的细胞态中C
t
,具体的表示公式如下所示:C
t
=f
t
*C
t
‑1+i
t
*Ch
t
=o
t
*tanh(C
t
)其中f
t
表示遗忘门,负责对之前的信息进行部分舍弃,C
t
‑1表示上个时刻的长期记忆,输入门i
t
表示当前时刻的输入数据信息,C表示模型学习到时序数据待存入记忆状态的新信息,经过上述式子计算得到的C
t
为当前时刻所保存的长期记忆;输出门o
t
负责控制当前时刻输出信息,tanh为激活函数,经过输出门和当前时刻记忆状态计算出当前时刻的隐藏状态h
t
;S22:AD_LSTM包含LSTM的输入门、遗忘门和输出门,在输入门、遗忘门和输出门之前加入子空间分解来对LSTM模型上一层传递过来的记忆状态进行矩阵分解,得到修正后记忆状态矩阵C
t

1S
=tanh(W
d
C
t
‑1+b
d
)其中,W
d
,b
d
是可学习参数,C
t
‑1为循环神经网络上一层的记忆状态;S23:在子空间分解之后加入以中间缺失时刻为权重的时间衰减函数,作用于经过矩阵分解学习后的记忆状态矩阵,具体公式如下:其中τ为可学习参数,Δt为中间缺失数据的时间,exp(.)为时间衰减函数,具体公式如下:exp(x)=e
x
其中e为自然对数,x为函数的输入变量;最后的记忆状态C
t
和隐藏状态h
t
的计算公式如下:h
t
=o
t
*tanh(C
t
)其中f
t
为遗忘门的输出,i
t
为输入门的输出,W
c
、U
c
和b
c
为可学习参数,h
t
‑1表示t

1时刻的隐藏状态,o
t
为输出门的输出;S24:通过设置输入层可学习参数、隐藏层神经元数量和层数以及输出层的可学习参数构建AD_LSTM模型,将Y
T
作为AD_LSTM模型的输入,模型输出为输入数据中每个时刻的下一个时刻的预测值,为Y
T+1
,计算公式如下:Y
T+1
=AD_LSTM((C0,h0),Y
T
)Y
T+1
=[y
′2,y
′3,...,y

n
]其中,y

n
是n时刻各个区域的AQI的预测值,(C0,h0)为初...

【专利技术属性】
技术研发人员:刘歆马艺超钱鹰朱红军杜红力温道洲
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1