一种基于机器学习LightGBM算法的空气质量预测方法技术

技术编号:34893699 阅读:36 留言:0更新日期:2022-09-10 13:53
本发明专利技术公开了一种基于机器学习LightGBM算法的空气质量预测方法,该方法包括以下步骤:S1、获取与空气质量相关的多源数据;S2、对多源数据进行处理;S3、构建基于机器学习LightGBM算法的空气质量预测模型;S4、将t+1~t+72时刻的气象预报数据、t

【技术实现步骤摘要】
一种基于机器学习LightGBM算法的空气质量预测方法


[0001]本专利技术属于空气质量预报
,特别涉及一种基于机器学习LightGBM算法的空气质量预测方法。

技术介绍

[0002]由于工业化水平的快速提高,空气质量成为与人们生命健康问题密切相关的因素之一,对空气质量预测的需求也在天气预报、旅游出行等领域逐步提升。预测数据能够足够准确是人们对空气质量预测和天气预报的首要需求之一。
[0003]传统空气质量预报模式已经在众多任务中取得了较好的性能,且已广泛应用于空气质量六参数(细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化疏(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO))的预报中。但是由于传统空气质量预报方法强依赖于污染源清单,易于受到污染源清单编制难度及更新频率的影响。虽然其已在本领域内广泛应用,但是其运算速度较慢,需耗费大量的计算资源和时间,导致业务化运行时,预报结果通常具有一定的滞后性,同时也会影响预报结果的准确性。随着监测手段的丰富,空气质量监测数据集越来越丰富多样,不断提高的计算机计算性能及近年来人工智能算法的快速发展,为挖掘大气环保数据中所隐含的信息提供了新的机遇与挑战。基于机器学习的空气质量六参数预报成为了当下具有潜力和挑战性的热点,逐渐开始与传统的空气质量数值预报模式一起服务于大众。

技术实现思路

[0004]针对上述现有技术存在的问题,本专利技术提供了一种基于机器学习LightGBM算法的空气质量预测方法。
[0005]本专利技术的目的在于提供了一种基于机器学习LightGBM算法的空气质量预测方法,包括以下步骤:
[0006]S1、获取与空气质量相关的多源数据,所述多源数据包括:站点空气质量监测数据、历史气象数据、气象预报数据和站点空间位置数据;
[0007]其中,所述站点空气质量监测数据包括站点历史空气质量监测数据和预测时刻实际站点空气质量监测数据;
[0008]S2、对获取的多源数据进行处理;
[0009]S3、构建基于机器学习LightGBM算法的空气质量预测模型;
[0010]S4、将实时更新的t+1时刻~t+72时刻的气象预报数据、t

7时刻~t时刻的站点空气质量监测数据、t

7时刻~t时刻的历史气象数据和站点空间位置数据输入空气质量预测模型中,输出得到空气质量预测结果;
[0011]S5、将得到的空气质量预测结果进行可视化展示。
[0012]优选的,步骤S2中,所述对获得的多源数据进行处理,包括:
[0013]A21、将获得的站点空气质量监测数据、历史气象数据和气象预报数据进行预处
理;
[0014]A22、将预处理后的站点空气质量监测数据、气象预报数据和历史气象数据与监测站点空间位置数据进行融合处理,并将融合后的数据集划分为训练集、验证集和测试集;
[0015]A23、对融合处理后的数据集进行特征提取,得到融合特征样本。
[0016]优选的,步骤A21中,所述对获得的站点空气质量监测数据进行预处理,包括对所述站点空气质量监测数据进行变量提取、数据清洗及缺测值填充处理。
[0017]优选的,步骤A21中,所述对历史气象数据和气象预报数据的预处理均采用反距离权重法插值处理。
[0018]优选的,所述历史气象数据选自ERA5格点再分析气象数据,所述气象预报数据选自GFS格点预报数据。
[0019]优选的,步骤S3中,所述构建基于机器学习LightGBM算法的空气质量预测模型,具体为:在将每个站点t

7时刻~t时刻的站点空气质量监测数据、t+1时刻~t+72时刻的气象预报数据和t

7时刻~t时刻的历史气象数据与站点空间位置数据进行融合、特征提取后得到的融合特征样本,作为LightGBM模型的输入项,以预报时刻实际站点空气质量监测数据作为标签,分批地对LightGBM模型进行训练,再参数调优,得到空气质量预测模型。
[0020]优选的,所述站点空气质量监测数据包括PM2.5、PM10、NO2、CO、O3和SO2的浓度数据。
[0021]本专利技术的目的还在于提供一种基于机器学习LightGBM算法的空气质量预测系统,包括:
[0022]数据获取模块,用于获取与空气质量相关的多源数据,其中,多源数据包括:站点空气质量监测数据、历史气象数据、气象预报数据和站点空间位置数据;
[0023]数据处理模块,包括数据预处理单元、数据融合单元和特征提取单元,其中,所述数据预处理单元,用于对获得的站点空气质量监测数据进行变量提取、数据清洗、缺测值填充处理,以及对获得的历史气象数据和气象预报数据采用反距离权重法插值处理;数据融合单元用于对预处理后的站点空气质量监测数据、气象预报数据和历史气象数据与站点空间位置数据进行融合处理;特征提取单元用于对融合处理后的数据集进行特征提取,获得融合特征样本;
[0024]模型构建模块,用于通过对LightGBM模型训练来构建空气质量预测模型;
[0025]业务化预测模块,用于将实时更新的t+1时刻~t+72时刻的气象预报数据、t

7时刻~t时刻的站点空气质量监测数据、t

7时刻~t时刻的历史气象数据和站点空间位置数据输入空气质量预测模型,输出得到空气质量预测结果;
[0026]可视化展示模块,用于将得到的空气质量预测结果进行可视化展示。
[0027]与现有技术相比,本专利技术具备如下有益效果:
[0028](1)本专利技术运用机器学习LightGBM算法,以站点起报时刻(t时刻)前若干小时的站点空气质量监测数据、历史气象数据、预报时刻气象数据、站点空间位置数据为输入特征(项),以预报时刻实际站点空气质量监测数据为标签,建立输入特征与标签之间的模型,并对该模型进行训练,以构建空气质量预测模型,并基于构建的空气质量预测模型,输入实时更新的t+1时刻~t+72时刻的气象预报数据、t

7时刻~t时刻的历史气象数据、t

7时刻~t时刻的站点空气质量监测数据及站点空间位置数据,实现了对监测站点未来72h空气质量
六参数的逐小时浓度的预测,同时结合计算机前端框架将得到的空气质量预测结果在信息化平台进行可视化展示。
[0029](2)本专利技术运用LightGBM模型构建了空气质量预测模型,这种轻量化的机器学习模型的使用,不仅避免了对污染源清单的强依赖,减少了运算速度和运算成本,同时有效提高了预报准确性和预报时效,且基于构建的空气质量预测模型进行日常预报时计算时间可控制在5min以内。
附图说明
[0030]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习LightGBM算法的空气质量预测方法,其特征在于,包括以下步骤:S1、获取与空气质量相关的多源数据,所述多源数据包括:站点空气质量监测数据、历史气象数据、气象预报数据和站点空间位置数据;其中,所述站点空气质量监测数据包括站点历史空气质量监测数据和预测时刻实际站点空气质量监测数据;S2、对获取的多源数据进行处理;S3、构建基于机器学习LightGBM算法的空气质量预测模型;S4、将实时更新的t+1时刻~t+72时刻的气象预报数据、t

7时刻~t时刻的站点空气质量监测数据、t

7时刻~t时刻的历史气象数据和站点空间位置数据输入空气质量预测模型中,输出得到空气质量预测结果;S5、将得到的空气质量预测结果进行可视化展示。2.根据权利要求1所述的空气质量预测方法,其特征在于,步骤S2中,所述对获得的多源数据进行处理,包括:A21、将获得的站点空气质量监测数据、历史气象数据和气象预报数据进行预处理;A22、将预处理后的站点空气质量监测数据、气象预报数据和历史气象数据与监测站点空间位置数据进行融合处理,并将融合后的数据集划分为训练集、验证集和测试集;A23、对融合处理后的数据集进行特征提取,得到融合特征样本。3.根据权利要求2所述的空气质量预测方法,其特征在于,步骤A21中,所述对获得的站点空气质量监测数据进行预处理,包括对所述站点空气质量监测数据进行变量提取、数据清洗及缺测值填充处理。4.根据权利要求2所述的空气质量预测方法,其特征在于,步骤A21中,所述对历史气象数据和气象预报数据的预处理均采用反距离权重法插值处理。5.根据权利要求1所述的空气质量预测方法,其特征在于,所述历史气象数据选自ERA5格点再分析气象数据,所述气象预报数据选自GFS格点预报数据。6.根据权利要求2所述的空气质量预测方法,其特征在于,步骤S3中,所述构建基于...

【专利技术属性】
技术研发人员:胡叶王明清梁逸爽周峥
申请(专利权)人:无锡九方科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1