当前位置: 首页 > 专利查询>湘江实验室专利>正文

空气质量数据标准化方法、装置、计算机设备及介质制造方法及图纸

技术编号:38900895 阅读:10 留言:0更新日期:2023-09-22 14:19
本发明专利技术公开了一种空气质量数据标准化方法、装置、计算机设备及介质,包括:将历史监测指标数据作为因变量,将时间数据和气象数据作为输入特征变量,构建原始空气质量监测浓度预测模型;采用SHAP算法对空气质量数据标准化浓度预测模型进行分析,确定每种输入特征变量对因变量产生的影响,得到输入特征变量的重要性排序;将重要性排序进行特征变量随机组合,得到最优的特征变量组合;重新构建监测浓度预测模型,得到目标空气质量监测浓度预测模型;根据最优特征变量组合重新采样输入特征变量,得到第二输入特征数据集,并输入到目标空气质量监测浓度预测模型进行训练,得到标准数据。采用本发明专利技术可提高空气质量数据标准化的准确性。用本发明专利技术可提高空气质量数据标准化的准确性。用本发明专利技术可提高空气质量数据标准化的准确性。

【技术实现步骤摘要】
空气质量数据标准化方法、装置、计算机设备及介质


[0001]本专利技术涉及数据处理领域,尤其涉及一种空气质量数据标准化方法、装置、计算机设备及介质。

技术介绍

[0002]空气质量与人们的身体健康状况息息相关,一般直接通过采集到的空气质量数据来反应空气质量的好坏。但是实际上,在采集数据时,气象条件会对特定时期的监测浓度数据的采集产生影响,使得监测数据无法准确代表空气质量。同时由于不同时间的气象条件存在差异,监测浓度数据比较结果也无法准确说明不同时间污染水平的变化。
[0003]国内外主要采用统计学方法、机器学习方法以及深度学习方法对空气质量监测数据进行标准化计算,如气象调整法、气象归一化法以剔除气象因素对空气质量数据的影响。其中,统计学方法:通过控制气象条件调整均值以消除气象干扰, 调整后的污染物时空平均浓度捕捉潜在排放量的变化。
[0004]机器学习技术:国外学者采用气象归一化的方法对气象数据进行归一化计算。气象归一化采用一种集成化算法——随机森林,从原始观测数据集重新采样(在不同的特征变量中进行随机抽样),生成一个新的输入数据集,通过随机森林模型得到该天监测浓度预测的多条数据,取其平均值即为当天监测浓度。国内学者在此基础上对变量的选择进行调整,将对数据集的重新抽样调整为采用原始时间段附近的数据集,以获得季节性浓度变化。
[0005]专利技术人在实现本专利技术的过程中,发现现有技术至少存在如下问题:非参数回归方法,需要对模型的参数进行严格的检验推断,步骤较多计算复杂度高。同时利用假设检验容易受到劣势样本的影响,从而影响结果的可靠性。
[0006]机器学习方法分为白盒模型与黑盒模型,气象归一化方法采用的随机森林模型属于黑盒模型,在判定选定特征变量重要性时存在可解释性弱的问题,对得出的结果难以进行解释,也无法判断所选择的各特征变量对预测结果产生的影响。

技术实现思路

[0007]本专利技术实施例提供一种空气质量数据标准化方法、装置、计算机设备和存储介质,以提高空气质量数据标准的准确性。
[0008]为了解决上述技术问题,本申请实施例提供一种空气质量数据标准化方法,包括:将历史监测指标数据作为因变量,将时间数据和气象数据作为输入特征变量,得到第一输入特征数据集,并采用所述第一输入特征数据集构建基于XGBoost模型的原始空气质量监测浓度预测模型;采用SHAP算法对所述空气质量数据标准化浓度预测模型进行分析,确定每种所述输入特征变量对因变量产生的影响,得到所述输入特征变量的重要性排序;将所述重要性排序进行特征变量随机组合,得到最优的特征变量组合;
基于所述最优特征变量组合,重新构建每种所述因变量对应的基于XGBoost模型的监测浓度预测模型,得到目标空气质量监测浓度预测模型;根据所述最优特征变量组合重新采样输入特征变量,得到第二输入特征数据集,将所述第二输入特征数据集输入到所述目标空气质量监测浓度预测模型进行训练,将得到的结果作为标准数据。
[0009]可选地,所述将历史监测指标数据作为因变量,将时间数据和气象数据作为输入特征变量,得到第一输入特征数据集包括:将各组不同类型的排放物的历史监测指标数据作为因变量,将时间数据和气象数据作为输入特征变量,得到第一输入特征数据集如下:
[0010]其中,X为第一输入样本数据集,上标m是输入特征变量的维度即特征变量的类别数目,下标n是输入样本的数量,X中的每一行表示一条输入样本。
[0011]可选地,所述采用所述第一输入特征数据集构建基于XGBoost模型的原始空气质量监测浓度预测模型包括:所述XGBoost模型采用CART作为基学习器,是通过一个由K个树模型组成的加法模型,对K个函数的预测值累加来拟合模型,预测值如下所示:
[0012]其中为模型输出预测结果;xi为第i个样本,即第一输入样本数据集X中的一行,f
k
为一个独立函数,F为所有CART构建的函数空间。
[0013]可选地,所述XGBoost模型加入正则化项防止过拟合,目标函数的优化参数是Boosting Tree模型,基于通过增量训练最小化目标函数。
[0014]可选地,所述采用SHAP算法对所述空气质量数据标准化浓度预测模型进行分析,确定每种所述输入特征变量对因变量产生的影响,得到每种所述输入特征变量的重要性排序包括:将所述原始空气质量监测浓度预测模型的激活函数与SHAP解释模型相关联,构建可解释性XGBoost模型;采用所述可解释性XGBoost模型计算出输入特征变量的Shapley值;对每个所述输入特征变量的Shapley值进行由大到小排序,得到重要性排序。
[0015]可选地,所述将所述重要性排序进行特征变量随机组合,得到最优的特征变量组合包括:从前往后选取预设比例的输入特征变量,作为候选特征变量;
对所述候选特征变量进行组合,通过平均绝对误差及决定性系数对组合特征的模型预测精度值进行评价:
[0016][0017]其中,i为样本编号;n为样本总数量;为第i条样本预测得到的监测数据,为第i条样本的实际监测数据,MAE为平均绝对误差,R2为决定性系数,MAE越小代表模型拟合效果越好,R2越大代表模型拟合效果越好,以降低MAE值提高R2值为目标得到预测各空气质量监测数据所对应的最优特征变量组合。
[0018]为了解决上述技术问题,本申请实施例还提供一种空气质量数据标准化装置,包括:原始模型构建模块,用于将历史监测指标数据作为因变量,将时间数据和气象数据作为输入特征变量,得到第一输入特征数据集,并采用所述第一输入特征数据集构建基于XGBoost模型的原始空气质量监测浓度预测模型;重要性排序模块,用于采用SHAP算法对所述空气质量数据标准化浓度预测模型进行分析,确定每种所述输入特征变量对因变量产生的影响,得到所述输入特征变量的重要性排序;特征组合模块,用于将所述重要性排序进行特征变量随机组合,得到最优的特征变量组合;目标模型构建模块,用于基于所述最优特征变量组合,重新构建每种所述因变量对应的基于XGBoost模型的监测浓度预测模型,得到目标空气质量监测浓度预测模型;数据标准化模块,用于根据所述最优特征变量组合重新采样输入特征变量,得到第二输入特征数据集,将所述第二输入特征数据集输入到所述目标空气质量监测浓度预测模型进行训练,将得到的结果作为标准数据。
[0019]可选地,所述原始模型构建模块包括:数据集构建单元,用于将各组不同类型的排放物的历史监测指标数据作为因变量,将时间数据和气象数据作为输入特征变量,得到第一输入特征数据集如下:
[0020]其中,X为第一输入样本数据集,上标m是输入特征变量的维度即特征变量的类别数目,下标n是输入样本的数量,X中的每一行表示一条输入样本。
[0021]可选地,所述重要性排序模块包括:关联单元,用于将所述原始空气质量监测浓度预测模型的激活函数与SHAP解释模型相关联,构建可解释性XGBoost模型;计算单元,用于采用所述可解释性XGBoost模型计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种空气质量数据标准化方法,其特征在于,所述空气质量数据标准化方法包括:将历史监测指标数据作为因变量,将时间数据和气象数据作为输入特征变量,得到第一输入特征数据集,并采用所述第一输入特征数据集构建基于XGBoost模型的原始空气质量监测浓度预测模型;采用SHAP算法对所述空气质量数据标准化浓度预测模型进行分析,确定每种所述输入特征变量对因变量产生的影响,得到所述输入特征变量的重要性排序;将所述重要性排序进行特征变量随机组合,得到最优的特征变量组合;基于所述最优特征变量组合,重新构建每种所述因变量对应的基于XGBoost模型的监测浓度预测模型,得到目标空气质量监测浓度预测模型;根据所述最优特征变量组合重新采样输入特征变量,得到第二输入特征数据集,将所述第二输入特征数据集输入到所述目标空气质量监测浓度预测模型进行训练,将得到的结果作为标准数据。2.如权利要求1所述的空气质量数据标准化方法,其特征在于,所述将历史监测指标数据作为因变量,将时间数据和气象数据作为输入特征变量,得到第一输入特征数据集包括:将各组不同类型的排放物的历史监测指标数据作为因变量,将时间数据和气象数据作为输入特征变量,得到第一输入特征数据集如下:其中,X为第一输入样本数据集,上标m是输入特征变量的维度即特征变量的类别数目,下标n是输入样本的数量,X中的每一行表示一条输入样本。3.如权利要求2所述的空气质量数据标准化方法,其特征在于,所述采用所述第一输入特征数据集构建基于XGBoost模型的原始空气质量监测浓度预测模型包括:所述XGBoost模型采用CART作为基学习器,是通过一个由K个树模型组成的加法模型,对K个函数的预测值累加来拟合模型,预测值如下所示:其中为模型输出预测结果;xi为第i个样本,即第一输入样本数据集X中的一行,f
k
为一个独立函数,F为所有CART构建的函数空间。4. 如权利要求3所述的空气质量数据标准化方法,其特征在于,所述XGBoost模型加入正则化项防止过拟合,目标函数的优化参数是Boosting Tree模型,基于通过增量训练最小化目标函数。5.如权利要求1所述的空气质量数据标准化方法,其特征在于,所述采用SHAP算法对所述空气质量数据标准化浓度预测模型进行分析,确定每种所述输入特征变量对因变量产生的影响,得到每种所述输入特征变量的重要性排序包括:
将所述原始空气质量监测浓度预测模型的激活函数与SHAP解释模型相关联,构建可解释性XGBoost模型;采用所述可解释性XGBoost模型计算出输入特征变量的Shapley值;对每个所述输入特征...

【专利技术属性】
技术研发人员:陈晓红曹廖滢汪阳洁
申请(专利权)人:湘江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1