基于混合聚类的PM2.5预测方法、预测模型训练方法技术

技术编号:33820241 阅读:12 留言:0更新日期:2022-06-16 10:42
本申请涉及空气污染预测的技术领域,尤其是涉及基于混合聚类的PM2.5预测方法、预测模型训练方法。该方法包括:对数据集的数据进行质量控制,并进行相关性分析,以确定聚类的特征,并设定聚类算法的簇数;将质量控制后的数据集的数据输入由聚类算法构建第一阶段模型、由XGBoost模型构建第二阶段模型,并集成第一阶段模型与第二阶段模型的最终模型,输出预测结果。本申请解决现有单一神经网络预测以及预测数据复杂导致的模型预测效果较差的技术问题。题。题。

【技术实现步骤摘要】
基于混合聚类的PM2.5预测方法、预测模型训练方法


[0001]本申请涉及空气污染预测的
,尤其是涉及基于混合聚类的PM2.5预测方法、预测模型训练方法。

技术介绍

[0002]随着我国经济和工业的发展,空气污染逐渐成为了一个不容忽视的问题.PM2.5是最主要的空气污染物,其直径小于等于2.5μm,是一种能够悬浮于大气中的细颗粒物。PM2.5在许多流行病学研究中都与对公众健康的不利影响有关。研究表明,PM2.5暴露是影响心血管发病率和死亡率的因素。随着我国对于环境的治理,PM2.5以及其他空气污染物浓度的增长有所放缓,但由于局部气象条件的改变,仍会使空气污染加剧。因此,准确预测PM2.5变得尤为重要。
[0003]近年来,随着机器学习的发展,许多学者开始利用机器学习技术,如神经网络来预测PM2.5浓度。
[0004]已有研究仍然存在不足之处,单一神经网络技术容易陷入局部极小化且收敛速度慢。因此,单个预测模型可能不足以在不同情况下进行预测。且如PM2.5,PM10,二氧化硫(SO 2
),和臭氧(O 3
)等数据包含着大量变量以及差异较大的分布形式,这可能会影响PM2.5预测模型的精度,增加训练时间,同时,复杂的输入数据可能导致模型的过拟合,导致模型预测结果较差。

技术实现思路

[0005]为此,本申请的实施例提供了一种基于混合聚类的PM2.5预测方法、预测模型训练方法,能够解决现有单一神经网络预测以及预测数据复杂导致的模型预测效果较差的技术问题,具体技术方案内容如下:
[0006]第一方面,本申请的实施例提供一种基于混合聚类的PM2.5预测方法,所述方法包括:
[0007]对数据集的数据进行质量控制,并进行相关性分析,以确定聚类的特征,并设定聚类算法的簇数;
[0008]将质量控制后的数据集的数据输入由聚类算法构建第一阶段模型、由XGBoost模型构建第二阶段模型,并集成第一阶段模型与第二阶段模型的最终模型,输出预测结果。
[0009]优选的,所述聚类算法为VBGMM算法。
[0010]第二方面,本申请的实施例提供一种基于混合聚类的PM2.5预测模型训练方法,配合使用于前述任意一项所述的基于混合聚类的PM2.5预测方法,所述基于混合聚类的PM2.5预测模型训练方法包括:
[0011]对数据集的数据的质量控制,对训练集数据与测试集数据进行相关性分析,以确定聚类的特征,并对数据集进行划分得到训练集数据以及测试集数据;
[0012]由聚类算法构建第一阶段模型,根据第一阶段模型所使用的算法的特性进行初始
参数设置;
[0013]由XGBoost模型构建第二阶段模型;
[0014]由训练集数据输入第一阶段模型训练,保存最优模型,将第二阶段模型调试参数后,集成第一阶段模型与第二阶段模型为最终模型;
[0015]将测试集数据输入最终模型中,输出预测结果。
[0016]优选的,所述对数据集的数据的质量控制,对训练集数据与测试集数据进行相关性分析,以确定聚类的特征,并对数据集进行划分得到训练集数据以及测试集数据包括:
[0017]对数据集中数据进行筛选和插补;
[0018]对训练集数据与测试集数据进行相关性分析,以确定聚类的特征;
[0019]将数据集按照8:2的比例进行划分,以数据集前80%的数据为测试集数据,以数据集后20%的数据为训练集数据。
[0020]优选的,所述方法还包括:
[0021]将测试集数据分别输入第一阶段模型以及第二阶段模型的XGBoost模型,输出预测结果,对真实值以及最终模型的预测值进行数学分析,根据模型评价方法比较最终模型的预测能力;所述第一阶段模型包括VBGMM算法。
[0022]优选的,所述由聚类算法构建第一阶段模型,根据第一阶段模型所使用的算法的特性进行初始参数设置包括:
[0023]利用训练集数据进行第一阶段模型训练,根据各个算法的特性进行算法初始参数设置,再根据不同机器学习算法的情况,进行参数调节以及参数选取范围的设置,然后采用网格搜索法进行参数的选择,得到保存最优模型。
[0024]优选的,所述集成第一阶段模型与第二阶段模型为最终模型包括:
[0025]使用python3.7对第一阶段模型、第二阶段模型进行集成为最终模型。
[0026]第三方面,本申请的实施例提供一种基于混合聚类的PM2.5预测装置,所述装置包括:
[0027]数据预处理模块,用于对数据集的数据的质量控制,对训练集数据与测试集数据进行相关性分析,以确定聚类的特征,并对数据集进行划分得到训练集数据以及测试集数据;
[0028]第一模型建立模块,用于由聚类算法构建第一阶段模型,根据第一阶段模型所使用的算法的特性进行初始参数设置;
[0029]第二模型建立模块,由XGBoost模型构建第二阶段模型;
[0030]模型训练模块,用于由训练集数据输入第一阶段模型训练,保存最优模型,将第二阶段模型调试参数后,集成第一阶段模型与第二阶段模型为最终模型;
[0031]预测模块,用于将测试集数据输入最终模型中,输出预测结果。
[0032]第四方面,本申请的实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述任意一项所述的基于混合聚类的PM2.5预测模型训练方法的步骤。
[0033]第五方面,本申请的实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述任意一项所述的基于混合聚类的PM2.5预测模型训练方法的步骤。
[0034]综上所述,与现有技术相比,本申请实施例提供的技术方案带来的有益效果至少包括:
[0035]1、通过对数据集中的数据进行聚类分析,降低输入数据的复杂度,通过将聚类算法与VBGMM模型集成,减少局部极小化且收敛速度慢的情况;
[0036]2、采用VBGMM算法与XGBoost模型集成预测模型,进行预测时,对数据集内的数据进行聚类分析,采用VBGMM算法与XGBoost模型集成预测模型在平均绝对误差MAE、均方误差MSE、平均绝对百分比误差MAPE、相关系数R2这四个指标均表现为较优的性能,可提高预测模型在预测PM2.5时的预测精度;
[0037]3、通过对数据集中的数据进行相关性分析得到聚类特征,并由训练集数据对第一阶段模型进行训练之后,调整第一阶段模型的参数为最优参数,在将第一阶段模型与第二阶段模型集成为最终模型,由测试集数据对最终模型的性能进行检测,从而实现对预测模型的训练,提高预测模型的精度。
附图说明
[0038]图1是本申请其中一实施例提供的基于混合聚类的PM2.5预测模型训练方法的流程示意图。
[0039]图2是本申请其中一实施例提供的VBGMM原理的原理图。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合聚类的PM2.5预测方法,其特征在于,所述方法包括:对数据集的数据进行质量控制,并进行相关性分析,以确定聚类的特征,并设定聚类算法的簇数;将质量控制后的数据集的数据输入由聚类算法构建第一阶段模型、由XGBoost模型构建第二阶段模型,并集成第一阶段模型与第二阶段模型的最终模型,输出预测结果。2.根据权利要求1所述的基于混合聚类的PM2.5预测方法,其特征在于,所述聚类算法为VBGMM算法。3.一种基于混合聚类的PM2.5预测模型训练方法,其特征在于,配合使用于权利要求1

2任意一项所述的基于混合聚类的PM2.5预测方法,所述基于混合聚类的PM2.5预测模型训练方法包括:对数据集的数据的质量控制,对训练集数据与测试集数据进行相关性分析,以确定聚类的特征,并对数据集进行划分得到训练集数据以及测试集数据;由聚类算法构建第一阶段模型,根据第一阶段模型所使用的算法的特性进行初始参数设置;由XGBoost模型构建第二阶段模型;由训练集数据输入第一阶段模型训练,保存最优模型,将第二阶段模型调试参数后,集成第一阶段模型与第二阶段模型为最终模型;将测试集数据输入最终模型中,输出预测结果。4.根据权利要求3所述的基于混合聚类的PM2.5预测模型训练方法,其特征在于,所述对数据集的数据的质量控制,对训练集数据与测试集数据进行相关性分析,以确定聚类的特征,并对数据集进行划分得到训练集数据以及测试集数据包括:对数据集中数据进行筛选和插补;对训练集数据与测试集数据进行相关性分析,以确定聚类的特征;将数据集按照8:2的比例进行划分,以数据集前80%的数据为测试集数据,以数据集后20%的数据为训练集数据。5.根据权利要求3所述的基于混合聚类的PM2.5预测模型训练方法,其特征在于,所述方法还包括:将测试集数据分别输入第一阶段模型以及第二阶段模型的XGBoost模型,输出预测结果,对真实值以及最终模型的预测值进行数学分析,根据模型评价方法...

【专利技术属性】
技术研发人员:李志生金宇凯
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1