【技术实现步骤摘要】
一种基于进化集成学习的大气污染物浓度时空预测方法
[0001]本专利技术属于面向大气环境学中大气污染物浓度空间预测的分析方法,具体涉及到一种使用进化集成学习的方法构建多种大气污染物浓度空间预测的子模型,通过对子模型动态加权集成的方式提升大气污染物浓度空间预测的精度。
技术介绍
[0002]大气污染物的种类高达100多种,根据存在状态可以划分为气态污染物与颗粒状污染物两大类,根据排放源可以分为人为污染物与天然污染物两大类。工业排放的大气污染物主要包括粉尘、SO2、氮氧化物、烟尘、细颗粒物(PM
2.5
)与可吸入颗粒物(PM
10
)。社会经济的快速发展直接导致大气污染物的排放快速增加,对生态环境安全与人民身心健康带来了较大的威胁,目前已引起社会各界的广泛关注,已成为全球共同面临的环境问题之一。尽管近年来中国对大气环境的整体治理成效显著,中国城市总体上有明显改善,但空间质量监测数据表明中国部分城市的大气污染仍然十分严重,例如2019年《世界空气质量报告》指出中国有47个城市跻身污染最严重的100 ...
【技术保护点】
【技术特征摘要】
1.一种基于进化集成学习的大气污染物浓度时空预测方法,其特征在于,所述方法包括如下步骤:步骤1:收集大气污染物浓度数据,进行标准化处理;步骤2:收集覆盖研究区的环境变量数据,筛选并构建最优环境变量集;步骤3:遴选空间预测算法,训练并评价初始阶段各子模型;步骤4:根据各子模型预测精度,构建初始阶段集成学习模型;步骤5:面向其他时间点的大气污染物浓度,构建进化集成学习模型;步骤6:基于蒙特卡洛模拟技术,进行预测结果的不确定性分析,使用训练好的进化集成学习模型动态输出大气污染物浓度时空分布图。2.根据权利要求1所述的一种基于进化集成学习的大气污染物浓度时空预测方法,其特征在于,所述步骤1包括:步骤1
‑
1:获取研究区大气污染物浓度数据:包括不同种类大气污染物浓度的监测数据、监测时间、监测站点ID及各监测站点经纬度信息;构建大气污染物浓度数据集AtmoPolData={a1,a2,a3,
…
,ak,Long,Lati,SiteID,Period},其中a1,a2,a3,
…
,ak分别为监测站点(SiteID)监测的第1、2、3、
…
,k种大气污染物浓度指标,Long与Lati为该站点的坐标,坐标系统采用WGS1984地理坐标,Period为数据监测周期;步骤1
‑
2:选择第j种大气污染物浓度指标为因变量(Dependent Variable),1≤j≤k,无特殊说明,因变量指该大气污染物浓度指标;步骤1
‑
3:根据数据监测周期与预测时间周期更新因变量数据,设定动态预测大气污染物浓度因变量空间分布的时间间隔为PrePeriod,且PrePeriod≥Period;如果PrePeriod=Period,进入步骤1
‑
4;如果PrePeriod>Period,计算各时间点因变量的平均值,具体计算方法为:假设因变量的实际监测时间集为{t1,t2,t3,
…
,ta},其中相邻监测时间的时间间隔为Period;因变量预测的监测时间集为{pre_t1,pre_t2,pre_t3,
…
,pre_tb},相邻预测时间点的时间间隔为PrePeriod,则pre_ti时间点(1≤i≤b)因变量的值为{tc,
…
,ti,
…
,tg}时间集对应因变量的均值,其中g
‑
i=i
‑
c,且tg
‑
tc=PrePeriod;步骤1
‑
4:识别并处理数据集AtmoPolData中的无效数据,无效数据指的是因变量数据中的空缺值、孤立点或脏数据;空缺值特指因变量在某一时间点或某一时间段出现数据丢失的情况,由于仪器故障,PM
10
在某一天几个小时的监测数据出现了丢失,这种情况下需要根据数据监测周期Period与缺失数据的时长综合决定,如果因变量连续丢失数据的时间MissPeriod≥PrePeriod,则该时间段不需要预测因变量的空间分布;孤立点指因变量在某一时间点前后同时出现长期的数据缺失,孤立点的监测时长可能小于PrePeriod,这种情况下较为特殊,该孤立点数据较为宝贵,是能够代表该时间段空气质量的数据,因变量取相关时间内的均值即可;脏数据指仪器监测出现了误差,产生了大量重复的观测数据,需要定期检查数据集,根据经验进行数据剔除;步骤1
‑
5:对因变量数据进行异常值剔除,异常值的判断标准为不属于以下区间:
(mean
‑3×
std,mean+3
×
std),mean与std分别代表因变量的平均值与标准差,对于识别出来的异常值使用平均值进行修正;步骤1
‑
6:使用KS
‑
检验(Kolmogorov
‑
Smirnov test)判断因变量是否符合正态分布,如果检验结果接受零假设,说明因变量符合正态分布,进行步骤2。3.根据权利要求1所述的一种基于进化集成学习的大气污染物浓度时空预测方法,其特征在于,所述步骤2包括:步骤2
‑
1:收集整理覆盖研究区的环境变量,作为预测大气污染物浓度的自变量,环境变量特指能够对因变量的时空分布产生显著影响的地理要素,即降雨、气温、风速、高程、土地利用、遥感影像图、基于遥感影像提取的各种植被指数,归一化植被指数、比值植被指数、绿度植被指数、增强型植被指数、差值环境植被指数、垂直植被指数的图层;环境变量的格式可以为栅格数据或矢量数据,栅格数据的文件格式可以包括TIFF、ESRI Grid、TXT,矢量数据的文件格式为Shapefile格式;环境变量的数据类型可以为浮点型、整型;环境变量的时间类型能够为动态类型、静态类型,动态环境变量随着时间的变化也会发生变化;步骤2
‑
2:启动一种地理信息系统软件,将矢量类型与栅格类型的环境变量的文件格式统一转换为TIFF;步骤2
‑
3:基于地理信息系统软件,使用双线性内插法将环境变量转换为统一的空间分辨率RES;步骤2
‑
4:将环境变量数据图层加载至地理信息系统软件,提取AtmoPolData数据集中各监测站点经纬度信息,根据经纬度信息提取各监测站点的环境变量数据;提取AtmoPolData中的因变量数据,将因变量与提取后的环境变量数据构成新的预测数据集:PreData=(YDepVari,X1,X2,
…
,Xnh,Long,Lati),其中YDepVari为因变量数据,X1,X2,
…
,Xnh为第1、2、
…
、nh个环境变量数据,Long与Lati为经纬度信息;步骤2
‑
5:识别并建立最优环境变量集,具体方法为:步骤2
‑5‑
1:针对自变量Xm(1≤m≤nh),计算YDepVari与Xm的皮尔逊相关系数r_m与显著水平pr_m,如果r_m>0.1并且pr_m<0.05,则保留自变量Xm;否则,从PreData中删除自变量Xm;步骤2
‑5‑
1:使用逐步线性回归方法筛选因变量的最优环境变量集,其他可供选择的筛选方法为递归特征消除算法;步骤2
‑5‑
1:更新预测数据集:PreData=(YDepVari,X1,X2,
…
,Xnf,Long,Lati),该数据集包含了nf种环境变量。4.根据权利要求1所述的一种基于进化集成学习的大气污染物浓度时空预测方法,其特征在于,所述步骤3包括:步骤3
‑
1:根据监测站点数量NY,也即某一时间点因变量的数量,确定构建的预测模型精...
【专利技术属性】
技术研发人员:刘春蕾,谢放尖,许海英,
申请(专利权)人:南京市生态环境保护科学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。