空气质量数据标准化方法、装置、计算机设备及介质制造方法及图纸

技术编号：38900895 阅读：10 留言：0更新日期：2023-09-22 14:19

本发明专利技术公开了一种空气质量数据标准化方法、装置、计算机设备及介质，包括：将历史监测指标数据作为因变量，将时间数据和气象数据作为输入特征变量，构建原始空气质量监测浓度预测模型；采用SHAP算法对空气质量数据标准化浓度预测模型进行分析，确定每种输入特征变量对因变量产生的影响，得到输入特征变量的重要性排序；将重要性排序进行特征变量随机组合，得到最优的特征变量组合；重新构建监测浓度预测模型，得到目标空气质量监测浓度预测模型；根据最优特征变量组合重新采样输入特征变量，得到第二输入特征数据集，并输入到目标空气质量监测浓度预测模型进行训练，得到标准数据。采用本发明专利技术可提高空气质量数据标准化的准确性。用本发明专利技术可提高空气质量数据标准化的准确性。用本发明专利技术可提高空气质量数据标准化的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
空气质量数据标准化方法、装置、计算机设备及介质

[0001]本专利技术涉及数据处理领域，尤其涉及一种空气质量数据标准化方法、装置、计算机设备及介质。

技术介绍

[0002]空气质量与人们的身体健康状况息息相关，一般直接通过采集到的空气质量数据来反应空气质量的好坏。但是实际上，在采集数据时，气象条件会对特定时期的监测浓度数据的采集产生影响，使得监测数据无法准确代表空气质量。同时由于不同时间的气象条件存在差异，监测浓度数据比较结果也无法准确说明不同时间污染水平的变化。
[0003]国内外主要采用统计学方法、机器学习方法以及深度学习方法对空气质量监测数据进行标准化计算，如气象调整法、气象归一化法以剔除气象因素对空气质量数据的影响。其中，统计学方法：通过控制气象条件调整均值以消除气象干扰, 调整后的污染物时空平均浓度捕捉潜在排放量的变化。
[0004]机器学习技术：国外学者采用气象归一化的方法对气象数据进行归一化计算。气象归一化采用一种集成化算法——随机森林，从原始观测数据集重新采样（在不同的特征变量中进行随机抽样），生成一个新的输入数据集，通过随机森林模型得到该天监测浓度预测的多条数据，取其平均值即为当天监测浓度。国内学者在此基础上对变量的选择进行调整，将对数据集的重新抽样调整为采用原始时间段附近的数据集，以获得季节性浓度变化。
[0005]专利技术人在实现本专利技术的过程中，发现现有技术至少存在如下问题：非参数回归方法，需要对模型的参数进行严格的检验推断，步骤较多计算复杂度高。同时利用假设检验容易...

【技术保护点】

【技术特征摘要】
1.一种空气质量数据标准化方法，其特征在于，所述空气质量数据标准化方法包括：将历史监测指标数据作为因变量，将时间数据和气象数据作为输入特征变量，得到第一输入特征数据集，并采用所述第一输入特征数据集构建基于XGBoost模型的原始空气质量监测浓度预测模型；采用SHAP算法对所述空气质量数据标准化浓度预测模型进行分析，确定每种所述输入特征变量对因变量产生的影响，得到所述输入特征变量的重要性排序；将所述重要性排序进行特征变量随机组合，得到最优的特征变量组合；基于所述最优特征变量组合，重新构建每种所述因变量对应的基于XGBoost模型的监测浓度预测模型，得到目标空气质量监测浓度预测模型；根据所述最优特征变量组合重新采样输入特征变量，得到第二输入特征数据集，将所述第二输入特征数据集输入到所述目标空气质量监测浓度预测模型进行训练，将得到的结果作为标准数据。2.如权利要求1所述的空气质量数据标准化方法，其特征在于，所述将历史监测指标数据作为因变量，将时间数据和气象数据作为输入特征变量，得到第一输入特征数据集包括：将各组不同类型的排放物的历史监测指标数据作为因变量，将时间数据和气象数据作为输入特征变量，得到第一输入特征数据集如下：其中，X为第一输入样本数据集，上标m是输入特征变量的维度即特征变量的类别数目，下标n是输入样本的数量，X中的每一行表示一条输入样本。3.如权利要求2所述的空气质量数据标准化方法，其特征在于，所述采用所述第一输入特征数据集构建基于XGBoost模型的原始空气质量监测浓度预测模型包括：所述XGBoost模型采用CART作为基学习器，是通过一个由K个树模型组成的加法模型，对K个函数的预测值累加来拟合模型，预测值如下所示：其中为模型输出预测结果；xi为第i个样本，即第一输入样本数据集X中的一行，f
k
为一个独立函数，F为所有CART构建的函数空间。4. 如权利要求3所述的空气质量数据标准化方法，其特征在于，所述XGBoost模型加入正则化项防止过拟合，目标函数的优化参数是Boosting Tree模型，基于通过增量训练最小化目标函数。5.如权利要求1所述的空气质量数据标准化方法，其特征在于，所述采用SHAP算法对所述空气质量数据标准化浓度预测模型进行分析，确定每种所述输入特征变量对因变量产生的影响，得到每种所述输入特征变量的重要性排序包括：
将所述原始空气质量监测浓度预测模型的激活函数与SHAP解释模型相关联，构建可解释性XGBoost模型；采用所述可解释性XGBoost模型计算出输入特征变量的Shapley值；对每个所述输入特征...

【专利技术属性】
技术研发人员：陈晓红，曹廖滢，汪阳洁，
申请(专利权)人：湘江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人