【技术实现步骤摘要】
基于趋势聚类和集成树的PM2.5小时浓度组合预测方法及系统
本专利技术涉及环境数据预测
,具体为基于趋势聚类和集成树的PM2.5小时浓度组合预测方法及系统。
技术介绍
近年来,以PM2.5为重要组分的雾霾污染高度频发,给人类生活和生态环境带来了严重的危害。PM2.5小时浓度多步预测对于PM2.5的预警预报具有重要参考意义,考虑到大气环境的时效性及动态性,实现精准的PM2.5浓度小时预测,可以有效地提高对空气污染的预报预警能力,亦是当前空气质量预报和防治的重要研究方向。PM2.5浓度在变化过程中受到多种因素的影响,准确地预测长时间的PM2.5浓度较为困难。目前空气污染物浓度预测模型大致分为机理模型和非机理模型两种。其中,机理模型通过模拟空气污染物的扩散过程预测污染物浓度,其结果的优劣很大程度上依赖于空气污染物排放源清单的精度。非机理模型以污染物浓度及气象要素的历史数据为基础,采用多元线性回归、随机森林、人工神经网络等方法预测空气污染物浓度。非机理模型虽然具有构建简单、数据易获取等优点,但是目前依然存在预测结果误差大,准确度低等问题。
技术实现思路
本专利技术意在提供基于趋势聚类和集成树的PM2.5小时浓度组合预测方法及系统,能够解决现有PM2.5小时浓度多步预测方法或预测模型误差大、准确度低、预测时间长等的问题。本申请提供如下技术方案:基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,包括以下内容:趋势聚类步骤:根据PM2.5均值序列和预测步长,按照 ...
【技术保护点】
1.基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:包括以下内容:/n趋势聚类步骤:根据PM2.5均值序列和预测步长,按照趋势相似度将PM2.5均值序列划分为不同的聚类时段;/n组合预测模型构建步骤:根据趋势聚类步骤的聚类结果,对每个聚类时段均建立多种不同类型的多步预测模型,选择各个聚类时段中预测精度最高的多步预测模型构建组合预测模型;/n预测步骤:根据组合预测模型输出PM2.5小时浓度多步预测结果。/n
【技术特征摘要】
1.基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:包括以下内容:
趋势聚类步骤:根据PM2.5均值序列和预测步长,按照趋势相似度将PM2.5均值序列划分为不同的聚类时段;
组合预测模型构建步骤:根据趋势聚类步骤的聚类结果,对每个聚类时段均建立多种不同类型的多步预测模型,选择各个聚类时段中预测精度最高的多步预测模型构建组合预测模型;
预测步骤:根据组合预测模型输出PM2.5小时浓度多步预测结果。
2.根据权利要求1所述的基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:趋势聚类步骤具体包括:
S100:基于长时间序列PM2.5的历史数据得到PM2.5均值序列;
S200:根据预测步长将均值序列划分为多个不同时段的子序列;
S300:基于K-means方法将不同时段的子序列按照趋势相似度划分为不同的聚类时段。
3.根据权利要求2所述的基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:所述S100具体包括:获取PM2.5的历史数据,计算PM2.5在日内24小时的浓度均值,构建PM2.5的24小时浓度均值序列所述S200具体包括:将PM2.5均值序列划分为24个长度为T的子序列,得到子序列集其中T为预测步长,预测步长是多步预测模型能预测到的未知时刻的PM2.5的个数。
4.根据权利要求3所述的基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:所述S300具体包括:
S301:选取多个不同的k值,针对每个k值,执行S302至S305得到每个k值的聚类结果,然后执行S306;
S302:从子序列集中随机选择k个子序列作为初始聚类中心;
S303:计算每个子序列到聚类中心的皮尔逊距离,将子序列划分到距离最近的类;
皮尔逊距离为:dp=1-r,其中,r表示Pearson相关系数;
S304:再次计算每个类的聚类中心;
S305:当聚类中心不能进行调整时,迭代终止;否则,重复步骤S303和S304;
S306:以平均类内距离、平均类间距离和IG指标为聚类评价指标,选择最优k值;
平均类内距离的计算公式为:
其中,Ii表示第i个聚类ui的类中子序列与类中其它子序列的平均距离,Li表示类ui中包含的子序列数量,代表类ui中的第1条和第c条子序列,代表与的皮尔逊距离;
平均类间距离的计算公式为:
其中,为聚类ui与聚类uj中的平均距离;
IG指标的计算公式为:
5.根据权利要求4所述的基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:组合预测模型构建步骤具体包括:
S400:根据趋势聚类结果,以PM2.5时空特征、空气污染物、气象数据为预测特征,对每个聚类时段的PM2.5子序列构建样本集;样本集的结构为n为样本个数,xi为PM2.5预测特征,yi为PM2.5监测值序列,将样本集划分为训练集、验证集和测试集;
S500:基于样本集,对每个聚类时段的PM2.5子序列分别建立多种不同类型的多步预测模型;
S600:对比不同聚类时段的不同类型的多步预测模型的预测精度,选择每个聚类时段中预测精度最高的模型构成组合预测模型。
6.根据权利要求5所述的基于趋势聚类和集成树的PM2.5小时浓度组合预测方法,其特征在于:S500中,多步预测模型的类型包括RFR模型,S500包括:
S501:RFR模型构建步骤;
RFR模型构建步骤包括:
S5011:输入训练集数据(Xtrain,Ytrain);
S5012:设置重采样比例,采用...
【专利技术属性】
技术研发人员:邓丽,邬群勇,刘清全,曹春霞,张臻,
申请(专利权)人:重庆市规划设计研究院,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。