空气质量数据确定方法及装置、可读存储介质、电子设备制造方法及图纸

技术编号:32644111 阅读:29 留言:0更新日期:2022-03-12 18:22
本发明专利技术提出一种空气质量数据确定方法及装置、可读存储介质、电子设备。空气质量数据确定方法包括:根据输入特征数据构建目标计算模型;确定初始超参数集;确定第一目标空气质量数据,确定第一目标样本,构建目标样本集,基于贝叶斯算法确定第一目标超参数组,构建目标超参数集;根据第一目标超参数组更新目标样本集,对目标超参数集进行迭代更新,迭代结束后,配置模型超参数组,并根据配置后的目标计算模型确定第一预设时间段内的空气质量数据。上述方法结合历史空气质量数据、未来气象数据等多维数据确定目标空气质量数据,并基于贝叶斯算法通过历史计算结果优化模型超参数,保证超参数精确优化,提升了目标空气质量数据的准确性。性。性。

【技术实现步骤摘要】
空气质量数据确定方法及装置、可读存储介质、电子设备


[0001]本专利技术涉及数据处理
,具体而言,涉及一种空气质量数据确定方法及装置、可读存储介质、电子设备。

技术介绍

[0002]目前,空气质量状况越来越受到社会大众的关注,恶劣的空气质量状况不仅会影响人们的生活,还会给人们的身心健康造成一定的伤害。
[0003]空气质量数据的确定涉及环境科学、统计学、计算机科学等领域,且空气质量数据的确定具有规律性弱、不稳定、易突变、复杂的空间和时间依赖关系等特点,使得空气质量数据的确定变得困难,影响空气质量数据的准确性。同时,在通过构建模型对空气质量数据进行确定时模型的超参数也会对模型的计算结果产生一定的影响,从而会进一步降低空气质量数据确定的准确性。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。
[0005]为此,本专利技术第一个方面在于提出一种空气质量数据确定方法。
[0006]本专利技术的第二个方面在于提出一种空气质量数据确定装置。
[0007]本专利技术的第三个方面在于提出一种可读存储介质。
[0008]本专利技术的第四个方面在于提出一种电子设备。
[0009]有鉴于此,本专利技术的第一个方面提出了一种空气质量数据确定方法,包括:确定目标计算模型的输入特征数据和输出数据,根据输入特征数据和输出数据构建目标计算模型;配置目标计算模型的超参数集,超参数集包括多个超参数组,不同的超参数组之间至少有一个超参数的取值不同,确定超参数集中的至少两个超参数组构成初始超参数集;根据初始超参数集和目标计算模型确定第一目标空气质量数据,根据第一目标空气质量数据与实际空气质量数据确定第一目标样本,构建目标样本集,根据贝叶斯算法及目标样本集确定第一目标超参数组,构建目标超参数集,并将第一目标超参数组和初始超参数集中的至少两个超参数组存入目标超参数集;根据第一目标超参数组和目标计算模型确定第二目标空气质量数据,根据第二目标空气质量数据与实际空气质量数据确定第二目标样本并更新目标样本集,根据贝叶斯算法以及更新后的目标样本集确定第二目标超参数组,并更新目标超参数集以完成一次迭代;对目标超参数集进行再次迭代更新,直至迭代次数达到预设阈值,配置目标超参数集中的一个目标超参数组为目标计算模型的模型超参数组,根据配置后的目标计算模型确定第一预设时间段内的空气质量数据。
[0010]在本专利技术所提供的空气质量数据确定方法中,会确定目标计算模型的输入特征数据和输出数据,并根据上述输入特征数据和输出数据构建需要的目标计算模型。
[0011]其中,输入特征数据为确定空气质量数据时所需要的参考数据或依据,通过获取多方面的空气质量参考数据,保证了空气质量数据确定的依据多样性,从而可提升空气质
量数据确定的准确性。进一步地,输出数据为第一预设时间段内的空气质量数据,输出数据和输入特征数据相对应。具体地,输入特征数据可包括第一预设时间段内的WRF(Weather Research And Forecasting Model,气象研究和预测模型)气象数据及静稳天气指数、第二预设时间段内的历史空气质量数据、站点信息数据,输出数据包括第一预设时间段内的空气质量数据。其中,静稳天气指数由WRF气象数据确定,第二预设时间段为当前时间之前的时间段,第一预设时间为当前时间之后的时间段。
[0012]具体地,目标计算模型为LightGBM(Light Gradient Boosting Machine,分布式梯度提升框架)模型。LightGBM模型是一个实现GBDT(Gradient Boosting Decision Tree,梯度提升决策树)算法的框架,GBDT模型的主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。LightGBM模型采用基于Histogram(直方图)的决策树算法、GOSS(Gradient

basedOne

SideSampling,单边梯度采样)、EFB(ExclusiveFeatureBundling,互斥特征捆绑)及带深度限制的Leaf

wise(叶子方向)叶子生长等策略,不但支持高效率的并行训练,还具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式、可以快速处理海量数据等优点,可广泛应用于分类和预测问题。本专利技术提出的空气质量数据确定方法基于LightGBM模型对空气质量数据进行计算,保证空气质量数据确定的快速性和准确性。
[0013]在本专利技术所提出的空气质量数据确定方法中,进一步地,在构建目标计算模型时,还会对目标计算模型的超参数集进行配置,并在开始使用目标计算模型进行计算时,从配置好的超参数集中选取至少两个超参数组构成初始超参数集。
[0014]其中,超参数集包括多个超参数,且每个超参数均具有一定的取值范围,从多个超参数中的每个超参数的取值范围内选取一个数值进行整合,即可组成一个超参数组,不同的超参数组之间至少有一个超参数的取值不同,超参数集中超参数组的数量根据各个超参数的取值范围决定。例如:超参数集中有A、B、C三个超参数,超参数A可取3个数值,超参数B可取2个数值,超参数C可取5个数值,那么,该超参数集内共有30(3
×2×
5)组超参数组。
[0015]进一步地,可通过手动输入超参数的类型及其取值范围来对目标计算模型的超参数集进行配置,该超参数的取值范围用于限定后续优化超参数时的计算范围。具体地,在本专利技术所提出的空气质量数据确定方法中,超参数的具体类型和取值范围配置如下:
[0016]learning_rate(学习率):0.01

0.1;
[0017]n_estimators(分类器数量):100

100000;
[0018]min_gain_to_split(执行节点分裂的最小增益):0

15;
[0019]min_child_sample(一个叶子上的最小数据量):20

80;
[0020]min_child_weight(最小叶子节点样本权重和):0.001:1;
[0021]min_data_in_leaf(一个叶子节点中最小的样本数):200

10000;
[0022]max_depth(树的最大深度):3

12;
[0023]num_leaves(树的叶子节点数):0

(2
max_depth

1);
[0024]Subsample(样本随机采样):0.8

1;
[0025]colsample_bytree(列采样):0.8

1.0;
[0026]reg_alpha(L1正规化参数):0

100;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种空气质量数据确定方法,其特征在于,包括:确定目标计算模型的输入特征数据和输出数据,根据所述输入特征数据和所述输出数据构建所述目标计算模型;配置所述目标计算模型的超参数集,所述超参数集包括多个超参数组,不同的所述超参数组之间至少有一个超参数的取值不同,确定所述超参数集中的至少两个所述超参数组构成初始超参数集;根据所述初始超参数集和所述目标计算模型确定第一目标空气质量数据,根据所述第一目标空气质量数据与实际空气质量数据确定第一目标样本,构建目标样本集,根据贝叶斯算法及所述目标样本集确定第一目标超参数组,构建目标超参数集,并将所述第一目标超参数组和所述初始超参数集中的所述至少两个超参数组存入所述目标超参数集;根据所述第一目标超参数组和所述目标计算模型确定第二目标空气质量数据,根据所述第二目标空气质量数据与实际空气质量数据确定第二目标样本并更新所述目标样本集,根据贝叶斯算法以及更新后的所述目标样本集确定第二目标超参数组,并更新所述目标超参数集以完成一次迭代;对所述目标超参数集进行再次迭代更新,直至迭代次数达到预设阈值,配置所述目标超参数集中的一个目标超参数组为所述目标计算模型的模型超参数组,根据配置后的所述目标计算模型确定第一预设时间段内的空气质量数据。2.根据权利要求1所述的空气质量数据确定方法,其特征在于,所述输入特征数据包括:所述第一预设时间段内的WRF气象数据及静稳天气指数、第二预设时间段内的历史空气质量数据、站点信息数据,其中,所述静稳天气指数由所述WRF气象数据确定;所述输出数据包括:所述第一预设时间段内的空气质量数据。3.根据权利要求1所述的空气质量数据确定方法,其特征在于,所述根据所述第一目标空气质量数据与实际空气质量数据确定第一目标样本,具体包括:构建评价函数,根据所述评价函数确定所述第一目标空气质量数据与实际空气质量数据的评价参数值;对所述评价参数值进行取反,确定取反后的所述评价参数值为第一目标样本。4.根据权利要求1所述的空气质量数据确定方法,其特征在于,所述根据贝叶斯算法及所述目标样本集确定第一目标超参数组,具体包括:根据所述目标样本集和高斯过程,拟合计算所述超参数集中全部超参数组的目标样本的期望均值及方差,所述超参数组和所述期望均值及方差呈一一对应关系;构建基于所述期望均值和方差的采集函数,基于所述采集函数的函数取值最大,确定当前函数取值对应的所述期望均值及方差所对应的所述超参数组为所述第一目标超参数组;其中,所述采集函数具体定义为:函数取值等于期望均值加上3倍的方差。5.根据权利要求4所述的空气质量数据确定方法,其特征在于,还包括:将所述初始超参数集中的所述...

【专利技术属性】
技术研发人员:邢军华曾志辉许文龙廖海斌陈瑞斌
申请(专利权)人:深圳中兴网信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1