【技术实现步骤摘要】
面向空气污染物的自相关误差Informer模型长时序预测方法及系统
[0001]本专利技术属于空气污染物应用
,尤其涉及一种面向空气污染物的自相关误差Informer模型长时序预测方法及系统。
技术介绍
[0002]随着经济的快速发展和城镇化进程的日益加快,空气污染物的浓度急剧上升。根据医学与大气污染的相关研究显示,空气污染对于人体的健康有着很大的影响。空气中的主要污染物包括SO2,NO2,CO,O3,PM
2.5
和PM
10
六种,不但会诱发,加重人体中枢神经系统,呼吸系统等多个人体系统的疾病,例如:O3可诱发慢性阻塞性肺病,鼻窦炎等呼吸系统疾病,对我们人类的健康有负面的影响。还对人民的幸福度,人口迁移等民生问题有一定的影响,根据相关研究报告显示,我国城市的外来人口准备留在当前城市的比例与当前城市的空气质量存在相关关系,城市的空气质量越好,外来人口的居住意愿也就越强,而且空气污染对人口的迁入与迁出也有着明显的负面影响。
[0003]对于空气污染物不断增长,各个国家致力于制定有效的控制政策,以用来预防空气污染所带来的影响。为此,已经建立多个空气监测站,监测和收集空气污染数据,以便进一步研究。利用常规的观测方法,可以预测短时间内的空气污染物浓度。根据预测结果,提前做好预防大气污染的准备,从而减轻大气污染对人体健康和经济的影响。确定性方法、统计方法和机器学习方法是目前常用的三种空气污染物浓度预测方法。确定性方法通过模拟大气化学扩散和输送过程来进行空气质量预报,虽然有一定的预 ...
【技术保护点】
【技术特征摘要】
1.一种面向空气污染物的自相关误差Informer模型长时序预测方法,其特征在于,包括:步骤1:基于自相关误差对Informer模型进行改进,得到AE
‑
Informer模型;步骤2:收集各站点的小时空气污染物数据并进行预处理,包括:缺失值补缺,统一编码;步骤3:对AE
‑
Informer模型进行超参数的调节;步骤4:基于处理后的各站点的小时空气污染物数据,采用近似求导反向误差传播算法训练AE
‑
Informer模型;步骤5:对实时收集的各站点小时空气污染物数据进行预处理,之后输入训练好的AE
‑
Informer模型中,进行空气污染物的长时序预测。2.根据权利要求2所述的面向空气污染物的自相关误差Informer模型长时序预测方法,其特征在于,所述步骤1包括:基于KL散度策略对Informer模型的Self
‑
Attention机制进行改进:使用KL散度计算每个query的稀疏得分,选取稀疏得分较高的lnL个query与其他所有key做点积运算,作为注意力得分,剩下的query不再进行Attention运算,而是将输入的value取平均值作为输出;基于自相关误差策略,将输入序列改变为每一时刻观测值与前一时刻观测值之间的误差。3.根据权利要求1所述的面向空气污染物的自相关误差Informer模型长时序预测方法,其特征在于,所述AE
‑
Informer模型的基本组成部分为ProbSpare Self
‑
Attention层、Full Self
‑
Attention层、编码层、卷积层、归一化层和全连接层;其中ProbSpare Self
‑
Attention层是基于KL散度策略改进的Self
‑
Attention机制,Encoder部分的ProbSpare Self
‑
Attention层用于将输入的时序序列计算相应的权重系数并形成模型的内部序列,Decoder部分的Full Self
‑
Attention层用于将模型的内部序列转换为要预测的目标序列,编码层用于将输入的空气污染物的时序序列编码为新的序列,卷积层用于进行模型蒸馏操作,归一化层为LayerNorm,全连接层用于将模型生成的序列重新变成任务要求的空气污染物的时序序列的长度。4.根据权利要求1所述的面向空气污染物的自相关误差Informer模型长时序预测方法,其特征在于,所述步骤2还包括:将缺失的样本量超过总样本量的10%的站点对应的小时空气污染物数据进行删除。5.根据权利要求1所述的面向空气污染物的自相关误差Informer模型长时序预测方法,其特征在于,所述步骤2中,使用集成模型进行缺失值的补缺。6.根据权利要求1所述的面向空气污染物的自相关误差Informer模型长时序预测方法,其特征在于,所述步骤2中,统一编码包括:将位置编码分为三个部分,分别为输入向量、局部时间戳和全局时间戳,假设X
t
为t时刻输入的时序序列,p是全局时间戳的类型数,pos代表在时序序列中的位置,L
x
为输入模型前的X
t
向量的长度,d
model
为输入模型后的向量长度,其中局部时间戳使用位置编码的计算公式为:
其中PE
(pos,2j)
表示局部时间戳,即当前参数在整个序列当中的位置;全局时间戳使用可学习嵌入表示SE
(pos)
实现,首先构建一个词汇表,使用Embedding层表示每一个词汇,然后使用Conv1d将输入标量转为向量最终的计算公式为:其中α是平衡标量投影和局部/全局嵌入之间...
【专利技术属性】
技术研发人员:蔡坤,张旭升,李莘莘,张静,葛强,
申请(专利权)人:河南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。