基于趋势聚类和集成树的PM2.5小时浓度组合预测方法及系统技术方案

技术编号:26260244 阅读:35 留言:0更新日期:2020-11-06 17:55
本发明专利技术涉及环境数据预测技术领域,具体为基于趋势聚类和集成树的PM2.5小时浓度组合预测方法及系统,该方法包括趋势聚类步骤:根据历史PM2.5均值序列,按照趋势相似度将PM2.5均值序列划分为不同的聚类时段;组合预测模型构建步骤,根据趋势聚类步骤的聚类结果,对每个聚类时段均建立多种不同类型的多步预测模型,根据每个聚类时段中的多步预测模型构建组合预测模型;预测步骤,根据组合预测模型输出PM2.5小时浓度多步预测结果。本申请的基于趋势聚类和集成树的PM2.5小时浓度组合预测方法及系统,能够解决现有PM2.5小时浓度多步预测方法或预测模型误差大、准确度低、预测时间长等问题。

【技术实现步骤摘要】
基于趋势聚类和集成树的PM2.5小时浓度组合预测方法及系统
本专利技术涉及环境数据预测
,具体为基于趋势聚类和集成树的PM2.5小时浓度组合预测方法及系统。
技术介绍
近年来,以PM2.5为重要组分的雾霾污染高度频发,给人类生活和生态环境带来了严重的危害。PM2.5小时浓度多步预测对于PM2.5的预警预报具有重要参考意义,考虑到大气环境的时效性及动态性,实现精准的PM2.5浓度小时预测,可以有效地提高对空气污染的预报预警能力,亦是当前空气质量预报和防治的重要研究方向。PM2.5浓度在变化过程中受到多种因素的影响,准确地预测长时间的PM2.5浓度较为困难。目前空气污染物浓度预测模型大致分为机理模型和非机理模型两种。其中,机理模型通过模拟空气污染物的扩散过程预测污染物浓度,其结果的优劣很大程度上依赖于空气污染物排放源清单的精度。非机理模型以污染物浓度及气象要素的历史数据为基础,采用多元线性回归、随机森林、人工神经网络等方法预测空气污染物浓度。非机理模型虽然具有构建简单、数据易获取等优点,但是目前依然存在预测结果误差大,准确度低等问题。
技术实现思路
本专利技术意在提供基于趋势聚类和集成树的PM2.5小时浓度组合预测方法及系统,能够解决现有PM2.5小时浓度多步预测方法或预测模型误差大、准确度低、预测时间长等的问题。本申请提供如下技术方案:基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,包括以下内容:趋势聚类步骤:根据PM2.5均值序列和预测步长,按照趋势相似度将PM2.5均值序列划分为不同的聚类时段;组合预测模型构建步骤,根据趋势聚类步骤的聚类结果,对每个聚类时段均建立多种不同类型的多步预测模型,选取各个聚类时段中预测精度最高的多步预测模型构建组合预测模型;预测步骤,根据组合预测模型输出PM2.5小时浓度多步预测结果。本专利技术技术方案中,基于趋势聚类和集成树的组合预测模型,可以实现对PM2.5小时浓度多步预测。组合预测模型采用直接多步预测策略,由PM2.5时序趋势聚类和组合预测模型构建两个阶段组成;组合预测模型具有误差低、准确率高的优点,在一定程度上优于单项集成树预测模型;组合预测模型采用直接多步预测方式,可以避免累计误差,进一步提高预测准确性,且可以适应不同季节下的PM2.5小时浓度多步预测需求。进一步,趋势聚类步骤具体包括:S100:基于长时间序列PM2.5的历史数据得到PM2.5均值序列;S200:根据预测步长将均值序列划分为多个不同时段的子序列;S300:基于K-means方法将不同时段的子序列按照趋势相似度划分为不同的聚类时段。进一步,所述S100具体包括:获取PM2.5的历史数据,计算PM2.5在日内24小时的浓度均值,构建PM2.5的24小时浓度均值序列所述S200具体包括:将PM2.5均值序列划分为24个长度为T的子序列,得到子序列集其中T为预测步长,预测步长是多步预测模型能预测到的未知时刻的PM2.5的个数。进一步,所述S300具体包括:S301:选取多个不同的k值,针对每个k值,执行S302至S305得到每个k值的聚类结果,然后执行S306;S302:从子序列集中随机选择k个子序列作为初始聚类中心;S303:计算每个子序列到聚类中心的皮尔逊距离,将子序列划分到距离最近的类;皮尔逊距离为:dp=1-r,其中,r表示Pearson相关系数;S304:再次计算每个类的聚类中心;S305:当聚类中心不能进行调整时,迭代终止;否则,重复步骤S303和S304;S306:以平均类内距离、平均类间距离和IG指标为聚类评价指标,选择最优k值;平均类内距离的计算公式为:其中,Ii表示第i个聚类ui的类中子序列与类中其它子序列的平均距离,Li表示类ui中包含的子序列数量,代表类中的第l条和第c条子序列,代表与的皮尔逊距离;平均类间距离的计算公式为:其中,为聚类ui与聚类uj中的平均距离;IG指标的计算公式为:平均类内距离越小表明聚类结果中各个类的内部差异越小,平均类间距离越大表明聚类结果中类与类之间的差异越大。当类内距离小而类间距离大时,IG的值接近1,聚类效果好;当类内距离大而类间距离小时,IG的值接近-1,聚类效果差。因此通过平均类内距离、平均类间距离和IG指标进行评价即可得出聚类最优的k值。进一步,组合预测模型构建步骤具体包括:S400:根据趋势聚类结果,以PM2.5时空特征、空气污染物、气象数据为预测特征,对每个聚类时段的PM2.5子序列构建样本集;样本集的结构为n为样本个数,xi为PM2.5预测特征,yi为PM2.5序列,将样本集划分为训练集、验证集和测试集;S500:基于样本集,对每个聚类时段的PM2.5子序列分别建立多种不同类型的多步预测模型;S600:对比不同聚类时段的不同类型的多步预测模型的预测精度,选择每个聚类时段中预测精度最高的模型构成组合预测模型。进一步,S500中,多步预测模型的类型包括RFR模型,S500包括:S501:RFR模型构建步骤;RFR模型构建步骤包括:S5011:输入训练集数据(Xtrain,Ytrain);S5012:设置重采样比例,采用Bootstrap方法从训练集中进行重采样,产生训练样本子集,从训练样本子集的预测特征中随机抽取m个特征,构建最小二乘回归树;S5013:重复S5012步骤,建立M棵回归树,得到随机森林回归模型;S5014:将M棵回归树的预测值取平均得到最终预测结果。进一步,S500中,多步预测模型的类型包括GBRT模型,S500包括:S502:GBRT模型构建步骤;GBRT模型构建步骤包括:S5021:输入训练集数据(Xtrain,Ytrain);S5022:初始化GBRT模型:S5023:迭代生成M棵回归树,对于M棵回归树均执行以下三步,其中m表示第m棵回归树:I:对于所有n个训练样本,按照以下公式,计算第m-1棵回归树的损失函数的负梯度值,并将它作为残差的估计值rim,其中i表示第i个样本:II:根据计算的残差rim拟合第m棵回归树gm(x),并计算梯度下降的步长:III:更新GBRT模型:fm(x)=fm-1(x)+lr*ρmgm(x)其中,lr表示学习率,用于控制单棵回归树模型对于GBRT总体模型的影响;S5024:得到总体GBRT模型:进一步,S500中,多步预测模型的类型包括Xgboost模型,S500包括:S503:Xgboost模型构建步骤;Xgboost模型构建步骤包括:S5031:输入训练集数据(Xtrain,Ytrain);S5032:迭代生成Xgboost模型本文档来自技高网...

【技术保护点】
1.基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:包括以下内容:/n趋势聚类步骤:根据PM2.5均值序列和预测步长,按照趋势相似度将PM2.5均值序列划分为不同的聚类时段;/n组合预测模型构建步骤:根据趋势聚类步骤的聚类结果,对每个聚类时段均建立多种不同类型的多步预测模型,选择各个聚类时段中预测精度最高的多步预测模型构建组合预测模型;/n预测步骤:根据组合预测模型输出PM2.5小时浓度多步预测结果。/n

【技术特征摘要】
1.基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:包括以下内容:
趋势聚类步骤:根据PM2.5均值序列和预测步长,按照趋势相似度将PM2.5均值序列划分为不同的聚类时段;
组合预测模型构建步骤:根据趋势聚类步骤的聚类结果,对每个聚类时段均建立多种不同类型的多步预测模型,选择各个聚类时段中预测精度最高的多步预测模型构建组合预测模型;
预测步骤:根据组合预测模型输出PM2.5小时浓度多步预测结果。


2.根据权利要求1所述的基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:趋势聚类步骤具体包括:
S100:基于长时间序列PM2.5的历史数据得到PM2.5均值序列;
S200:根据预测步长将均值序列划分为多个不同时段的子序列;
S300:基于K-means方法将不同时段的子序列按照趋势相似度划分为不同的聚类时段。


3.根据权利要求2所述的基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:所述S100具体包括:获取PM2.5的历史数据,计算PM2.5在日内24小时的浓度均值,构建PM2.5的24小时浓度均值序列所述S200具体包括:将PM2.5均值序列划分为24个长度为T的子序列,得到子序列集其中T为预测步长,预测步长是多步预测模型能预测到的未知时刻的PM2.5的个数。


4.根据权利要求3所述的基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:所述S300具体包括:
S301:选取多个不同的k值,针对每个k值,执行S302至S305得到每个k值的聚类结果,然后执行S306;
S302:从子序列集中随机选择k个子序列作为初始聚类中心;
S303:计算每个子序列到聚类中心的皮尔逊距离,将子序列划分到距离最近的类;
皮尔逊距离为:dp=1-r,其中,r表示Pearson相关系数;
S304:再次计算每个类的聚类中心;
S305:当聚类中心不能进行调整时,迭代终止;否则,重复步骤S303和S304;
S306:以平均类内距离、平均类间距离和IG指标为聚类评价指标,选择最优k值;
平均类内距离的计算公式为:



其中,Ii表示第i个聚类ui的类中子序列与类中其它子序列的平均距离,Li表示类ui中包含的子序列数量,代表类ui中的第1条和第c条子序列,代表与的皮尔逊距离;
平均类间距离的计算公式为:



其中,为聚类ui与聚类uj中的平均距离;
IG指标的计算公式为:





5.根据权利要求4所述的基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:组合预测模型构建步骤具体包括:
S400:根据趋势聚类结果,以PM2.5时空特征、空气污染物、气象数据为预测特征,对每个聚类时段的PM2.5子序列构建样本集;样本集的结构为n为样本个数,xi为PM2.5预测特征,yi为PM2.5监测值序列,将样本集划分为训练集、验证集和测试集;
S500:基于样本集,对每个聚类时段的PM2.5子序列分别建立多种不同类型的多步预测模型;
S600:对比不同聚类时段的不同类型的多步预测模型的预测精度,选择每个聚类时段中预测精度最高的模型构成组合预测模型。


6.根据权利要求5所述的基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:S500中,多步预测模型的类型包括RFR模型,S500包括:
S501:RFR模型构建步骤;
RFR模型构建步骤包括:
S5011:输入训练集数据(Xtrain,Ytrain);
S5012:设置重采样比例,采用...

【专利技术属性】
技术研发人员:邓丽邬群勇刘清全曹春霞张臻
申请(专利权)人:重庆市规划设计研究院
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1