【技术实现步骤摘要】
一种基于差分法消除多重共线性的逐步聚类统计降尺度方法
[0001]本专利技术涉及气候预测领域,具体涉及一种基于差分法消除多重共线性的逐步聚类统计降尺度方法。
技术介绍
[0002]现有的气候预测方法主要包括动力学方法和统计学方法。动力学方法是基于大气、陆地、海洋过程的物理过程编写的气候模型,通过提供初始条件及边界条件,可以算出未来的气候状态。统计学方法则是基于统计的数学方法,分析历史气候数据间的统计关系,以此求解未来的气候数据。目前,逐步聚类的统计方法已应用于气候、水文等领域进行未来数据的预测。逐步聚类方法通过切割或合并一系列历史的预报因子及预测量组成的矩阵,产生出预报因子与预测量之间的聚类树,假定未来预报因子与预测量之间的聚类树与历史的相同,通过全球气候模型中未来的预报因子的值,以此计算出未来的预报量。逐步聚类统计降尺度方法的优势在于不用假设预报因子与预测量之间的函数关系,通过聚类树解释多个预报因子和多个预测量之间的响应关系。
[0003]在应用中,逐步聚类统计降尺度方法要求预报因子之间不存在线性关系。然而,现实中,气候因子间往往存在多重共线性关系,例如降雨作为预测量,预报因子包括温度,气压,蒸散发,风速等,其中蒸散发与温度、风速相关,风速与气压相关,各因子间存在多重共线性关系。预报因子间的共线性问题会导致逐步聚类过程中产生不必要的切割或合并,导致聚类树无法反映真实的预报因子与预测量之间的关系,增加未来预测量的预测误差。
[0004]因此,亟需需要研发出一种能消除预报因子间共线性问题的逐步聚类统计降 ...
【技术保护点】
【技术特征摘要】
1.一种基于差分法消除多重共线性的逐步聚类统计降尺度方法,其特征在于,包括以下步骤:(1)搜集并筛选数据,将地面观测站点或再分析气候数据作为预报量,将全球气候模型GCM或区域气候模型RCM模拟的气候数据作为备选的预测因子,通过计算备选的预测因子与预报量之间的相关性,筛选出与预报量相关性高的预测因子;(2)将步骤(1)中的所述预报量按照时间序列分为两部分数据,第一部分为逐步聚类统计降尺度的模型训练阶段数据TY,第二部分为模型验证阶段数据CY;同时将所述备选的预测因子的历史数据分为训练阶段数据TX以及验证阶段数据CX;由预测因子的未来数据PX组成模型预报阶段数据;若搜集到的所述备选的预测因子的历史数据时间序列为(A
‑
B),则训练阶段划分为(A
‑
C),验证阶段划分为(C
‑
B);(3)差分阶段,针对步骤(2)中所述训练阶段数据TX所存在的多重共线性问题,首先对该训练阶段数据TX做多重共线性检验,若检验不通过,则对TX中存在共线性的预报因子进行差分,差分后的预报因子设为TXD,预测量设为TYD,将差分后的TXD与TYD分别表示为TXD=XD
t
‑
XD
t
‑1,TYD=YD
t
‑
YD
t
‑1,其中XD
t
、XD
t
‑1分别表示t时刻和t
‑
1时刻预报因子x的值,YD
t
、YD
t
‑1分别表示t时刻和t
‑
1时刻预测量y的值;(4)模型训练阶段,构建逐步聚类统计降尺度训练阶段矩阵T,如式(1)所示:式中,p、q分别为预报因子x的个数,以及预报因子x的时间序列长度,k为预测量y的个数;采用Wilks准则进行聚类的切割或合并,直到无法切割或合并,从而生成预报因子与预测量间的聚类树模型;(5)模型验证阶段,将CX作为模型的输入数据,通过步骤(4)中所生成的聚类树模型求解验证阶段的CY
’
,分析验证阶段的预报量CY与模型求解的CY
’
之间的关系,求解RMSE,R2,其中其中,n
CY
为CY的样本量,为CY的样本均值;(6)模型预测阶段,将PX作为模型输入数据,通过步骤(4)中所生成的聚类树模型求解预测阶段的PY,以此得到预报量的未来数据。2.根据权利要求1所述的逐步聚类统计降尺度方法,其特征在于,步骤(1)中筛选出与预报量相关性高的预测因子的标准为相关性大小,所述标准分为绝对标准和相对标准,其中,绝对标准是根据备选预报因子的个数n,选取其中相关性最高的前...
【专利技术属性】
技术研发人员:张重,黄国和,鲁晨,王丝雨,田初引,林夏婧,宋唐女,
申请(专利权)人:华北电力大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。