基于混合聚类的PM2.5预测方法、预测模型训练方法技术

技术编号：33820241 阅读：12 留言：0更新日期：2022-06-16 10:42

本申请涉及空气污染预测的技术领域，尤其是涉及基于混合聚类的PM2.5预测方法、预测模型训练方法。该方法包括：对数据集的数据进行质量控制，并进行相关性分析，以确定聚类的特征，并设定聚类算法的簇数；将质量控制后的数据集的数据输入由聚类算法构建第一阶段模型、由XGBoost模型构建第二阶段模型，并集成第一阶段模型与第二阶段模型的最终模型，输出预测结果。本申请解决现有单一神经网络预测以及预测数据复杂导致的模型预测效果较差的技术问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
基于混合聚类的PM2.5预测方法、预测模型训练方法

[0001]本申请涉及空气污染预测的
，尤其是涉及基于混合聚类的PM2.5预测方法、预测模型训练方法。

技术介绍

[0002]随着我国经济和工业的发展,空气污染逐渐成为了一个不容忽视的问题.PM2.5是最主要的空气污染物,其直径小于等于2.5μm,是一种能够悬浮于大气中的细颗粒物。PM2.5在许多流行病学研究中都与对公众健康的不利影响有关。研究表明,PM2.5暴露是影响心血管发病率和死亡率的因素。随着我国对于环境的治理,PM2.5以及其他空气污染物浓度的增长有所放缓,但由于局部气象条件的改变,仍会使空气污染加剧。因此,准确预测PM2.5变得尤为重要。
[0003]近年来,随着机器学习的发展,许多学者开始利用机器学习技术,如神经网络来预测PM2.5浓度。
[0004]已有研究仍然存在不足之处,单一神经网络技术容易陷入局部极小化且收敛速度慢。因此,单个预测模型可能不足以在不同情况下进行预测。且如PM2.5,PM10,二氧化硫(SO 2
),和臭氧(O 3
)等数据包含着大量变量以及差异较大的分布形式,这可能会影响PM2.5预测模型的精度,增加训练时间，同时,复杂的输入数据可能导致模型的过拟合，导致模型预测结果较差。

技术实现思路

[0005]为此，本申请的实施例提供了一种基于混合聚类的PM2.5预测方法、预测模型训练方法，能够解决现有单一神经网络预测以及预测数据复杂导致的模型预测效果较差的技术问题，具体技术方案内容如...

【技术保护点】

【技术特征摘要】
1.一种基于混合聚类的PM2.5预测方法，其特征在于，所述方法包括：对数据集的数据进行质量控制，并进行相关性分析，以确定聚类的特征，并设定聚类算法的簇数；将质量控制后的数据集的数据输入由聚类算法构建第一阶段模型、由XGBoost模型构建第二阶段模型，并集成第一阶段模型与第二阶段模型的最终模型，输出预测结果。2.根据权利要求1所述的基于混合聚类的PM2.5预测方法，其特征在于，所述聚类算法为VBGMM算法。3.一种基于混合聚类的PM2.5预测模型训练方法，其特征在于，配合使用于权利要求1
‑
2任意一项所述的基于混合聚类的PM2.5预测方法，所述基于混合聚类的PM2.5预测模型训练方法包括：对数据集的数据的质量控制，对训练集数据与测试集数据进行相关性分析，以确定聚类的特征，并对数据集进行划分得到训练集数据以及测试集数据；由聚类算法构建第一阶段模型，根据第一阶段模型所使用的算法的特性进行初始参数设置；由XGBoost模型构建第二阶段模型；由训练集数据输入第一阶段模型训练，保存最优模型，将第二阶段模型调试参数后，集成第一阶段模型与第二阶段模型为最终模型；将测试集数据输入最终模型中，输出预测结果。4.根据权利要求3所述的基于混合聚类的PM2.5预测模型训练方法，其特征在于，所述对数据集的数据的质量控制，对训练集数据与测试集数据进行相关性分析，以确定聚类的特征，并对数据集进行划分得到训练集数据以及测试集数据包括：对数据集中数据进行筛选和插补；对训练集数据与测试集数据进行相关性分析，以确定聚类的特征；将数据集按照8:2的比例进行划分，以数据集前80％的数据为测试集数据，以数据集后20％的数据为训练集数据。5.根据权利要求3所述的基于混合聚类的PM2.5预测模型训练方法，其特征在于，所述方法还包括：将测试集数据分别输入第一阶段模型以及第二阶段模型的XGBoost模型，输出预测结果，对真实值以及最终模型的预测值进行数学分析，根据模型评价方法...

【专利技术属性】
技术研发人员：李志生，金宇凯，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人