一种空气质量模式预报机器学习集成订正方法技术

技术编号:38724092 阅读:10 留言:0更新日期:2023-09-08 23:17
本发明专利技术公开了一种空气质量模式预报机器学习集成订正方法,包括S1、获取历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据;S2、对历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据进行前处理和特征构建,得到前处理数据和特征值,将处理后的数据划分为训练集、测试机和验证集,比例为7:2:1;S3、利用历史空气质量预报数据和历史空气质量实况数据、历史气象预报数据和历史气象实况数据构建基于CatBoost构建订正模型;S4、基于CatBoost预测模型,输入预报空气质量特征、预报气象质量特征,得到订正的预报结果。本发明专利技术预报精度高。预报精度高。预报精度高。

【技术实现步骤摘要】
一种空气质量模式预报机器学习集成订正方法


[0001]本专利技术属于计算机学科与环境学科的交叉
,具体涉及一种空气质量模式预报机器学习集成订正方法。

技术介绍

[0002]近年来由于快速城市化和工业化发展,大气污染问题日益严峻,环保部门对大气污染的预报和管控工作提出了更高的要求,希望对未来空气质量进行更加准确和精细的预测。随着技术的发展和普及,越来越多的数值模式技术开始应用到空气质量的预报中,比较典型的模式有WRF

Chem、CMAQ和CAMx等。
[0003]在对上述空气质量数值模式进行实际应用时发现,数值模式基于大气成分运动和变化的物理化学原理,能够在一定程度上预测未来一段时间的大气污染物浓度变化趋势。但由于大气系统的复杂性和误差累积,模式预报结果与相对应的实际大气污染浓度存在较大差距。因此,针对数值模式的预报结果,结合各类有效方法进行订正以提升预报水平具有重要的显示意义。
[0004]针对空气质量模式预报的订正问题,近年来有许多研究者应用前沿技术进行量化研究,取得了重要的进展。陈磊等基于CUACE模式在宁波地区进行了空气质量预报的评估和订正分析;张斌等利用集合深度学习方法订正空气质量数值预报结果,在新疆乌昌石城市群进行了PM2.5的误差订正;肖宇等基于机器学习算法做了空气质量数值预报订正的耦合,对四种常规污染物的空气质量模型预报结果进行了订正;芦华等基于机器学习在成渝地区进行了空气质量预报PM2.5的订正。
[0005]空气质量模式预报的订正问题,目前还鲜有基于长期空气质量数值模式预报结果,对六种常规污染物做预报的情形,或在中长期预报获得比较稳定的预报质量提升。

技术实现思路

[0006]本专利技术目的是提供一种空气质量模式预报机器学习集成订正方法,能够提高数值预报模型的预报精度。
[0007]为了实现上述目的,本专利技术的技术方案是:
[0008]一种空气质量模式预报机器学习集成订正方法,包括如下步骤:
[0009]S1、获取历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据;
[0010]S2、对历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据进行前处理和特征构建,得到前处理数据和特征值,将处理后的数据划分为训练集、测试机和验证集,比例为7:2:1;
[0011]S3、利用历史空气质量预报数据和历史空气质量实况数据、历史气象预报数据和历史气象实况数据构建基于CatBoost构建订正模型;
[0012]S4、基于CatBoost预测模型,输入预报空气质量特征、预报气象质量特征,得到订
正的预报结果。
[0013]作为对上述技术方案的改进,空气质量的要素为PM2.5、PM10、O3、NO2、CO、SO2;气象的要素为气温、气压、湿度、风向、风速。
[0014]作为对上述技术方案的改进,空气质量预报数据包括由空气质量模式在北京时间20点起报的未来7日预报结果,总共输出六类污染物浓度数据,即PM2.5、PM10、O3、NO2、CO、SO2;气象预报数据包括由气象模式在北京时间20点起报的未来7日预报结果,有气温、气压、湿度、风向、风速。
[0015]作为对上述技术方案的改进,空气质量实况数据和气象实况数据包括经质控的站点监测数据和综合实况数据;其中空气质量实况数据总共输出六类污染物浓度数据,即PM2.5、PM10、O3、NO2、CO、SO2;气象实况数据包括五类数据,即气温、气压、湿度、风向、风速。
[0016]作为对上述技术方案的改进,所述步骤S2中,对历史数据进行预处理的方法是:
[0017]S201、首先将预报数据按照预报时效拆分为1

24,25

48,49

72,73

96,97

120,121

144,145

168,169

192,193

216,217

240,分别对应每个预报日,将所有相同预报日的数据合并为一个数据集,然后将空气质量预报和气象预报数据分别按照时间一致原则合并起来;
[0018]S201、对站点预报数据,对每个站点都按照预报时效拆分为每个预报日的数据集,然后将所有站点数据按照时间合并起来,形成一个宽表,其字段为每个站点的预报要素和站点经纬度;
[0019]S203、随后将预报数据和站点预报数据按照时间一致原则合并起来,整理各个字段名,不出现重复的数据;
[0020]S204、操作完毕后,对每个预报日,构成一个完整数据集,总共创建10个数据集;
[0021]S205、将10个数据集分别与实况数据按照时间合并。
[0022]作为对上述技术方案的改进,所述步骤S2中,特征挖掘的方法是:
[0023]S206、首先对数据集做相关性分析,去掉相关性弱的特征,将相关性绝对值小于等于0.1的特征剔除;
[0024]S207、运用特征衍生技术,创建新的特征;新的特征包括原特征的组合、原特征的交叉;特征组合是对特征进行算数运算;特征交叉是对多个特征进行交叉组合,做交并补笛卡尔积运算;
[0025]S208、对数据进行时间滑移操作,对预报数据做滞后运算,得到的时间与实况时间对应,得到实况要素滞后特征

[0026]作为对上述技术方案的改进,所述步骤S4中,所述预测和评估的方法是:
[0027]利用测试集数据,采用均方根误差作为评估指标,均方根误差的公式如下:
[0028][0029]其中,表示预测值,y
i
表示观测值,n表示评估所需的观测数;
[0030]同时使用R2作为辅助评价指标,公式如下所示:
[0031][0032]其中表示预测值,y
i
表示观测值,表示观测值的算数平均值,n表示评估所需的观测数。
[0033]与现有技术相比,本专利技术具有的优点和积极效果是:
[0034]1、本专利技术在订正模型上,融合了历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据,并进行特征工程,充分利用了历史实况数据,能够对未来趋势做出合理预测。2、本专利技术能够输出长达240小时的逐时预报订正结果,且预报精度高于原空气质量数值模式、原气象数值模式。
附图说明
[0035]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0036]图1为本专利技术的算法流程示意图;
[0037]图2为数值模式预报数据与实况数据对比散点图;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种空气质量模式预报机器学习集成订正方法,其特征在于:包括如下步骤:S1、获取历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据;S2、对历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据进行前处理和特征构建,得到前处理数据和特征值,将处理后的数据划分为训练集、测试机和验证集,比例为7:2:1;S3、利用历史空气质量预报数据和历史空气质量实况数据、历史气象预报数据和历史气象实况数据构建基于CatBoost构建订正模型;S4、基于CatBoost预测模型,输入预报空气质量特征、预报气象质量特征,得到订正的预报结果。2.根据权利要求1所述空气质量模式预报机器学习集成订正方法,其特征在于:空气质量的要素为PM2.5、PM10、O3、NO2、CO、SO2;气象的要素为气温、气压、湿度、风向、风速。3.根据权利要求1所述空气质量模式预报机器学习集成订正方法,其特征在于:空气质量预报数据包括由空气质量模式在北京时间20点起报的未来7日预报结果,总共输出六类污染物浓度数据,即PM2.5、PM10、O3、NO2、CO、SO2;气象预报数据包括由气象模式在北京时间20点起报的未来7日预报结果,有气温、气压、湿度、风向、风速。4.根据权利要求1所述空气质量模式预报机器学习集成订正方法,其特征在于:空气质量实况数据和气象实况数据包括经质控的站点监测数据和综合实况数据;其中空气质量实况数据总共输出六类污染物浓度数据,即PM2.5、PM10、O3、NO2、CO、SO2;气象实况数据包括五类数据,即气温、气压、湿度、风向、风速。5.根据权利要求1所述空气质量模式预报机器学习集成订正方法,其特征在于:所述步骤S2中,对历史数据进行预处理的方法是:S201、首先将预报数据按照预报时效拆分为1

24,25

48,49

72,73

96,97

【专利技术属性】
技术研发人员:胡龙平王梦佳张小意邓顺强
申请(专利权)人:上海地听信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1