一种基于差分法消除多重共线性的逐步聚类统计降尺度方法技术

技术编号:31019597 阅读:17 留言:0更新日期:2021-11-30 03:05
本发明专利技术公开了一种基于差分法消除多重共线性的逐步聚类统计降尺度方法,首先,通构建预报因子和预测量数据模型;接着利用差分法消除多重共线性;然后进行模型训练阶段,通过逐步聚类统计降尺度,合并或分割产生聚类树;再然后,在模型验证阶段,将预报因子输入到聚类树模型进行验证;最后在模型预测阶段,将预报因子的未来数据输入到聚类树模型中,对气候要素进行长期预测。本发明专利技术解决了气候统计降尺度模型中出现得多重共线性问题,所构建的聚类树模型更能反映真实的预测因子与预报量之间的关系,为计算未来气候要素提供了更可靠的统计方法。方法。方法。

【技术实现步骤摘要】
一种基于差分法消除多重共线性的逐步聚类统计降尺度方法


[0001]本专利技术涉及气候预测领域,具体涉及一种基于差分法消除多重共线性的逐步聚类统计降尺度方法。

技术介绍

[0002]现有的气候预测方法主要包括动力学方法和统计学方法。动力学方法是基于大气、陆地、海洋过程的物理过程编写的气候模型,通过提供初始条件及边界条件,可以算出未来的气候状态。统计学方法则是基于统计的数学方法,分析历史气候数据间的统计关系,以此求解未来的气候数据。目前,逐步聚类的统计方法已应用于气候、水文等领域进行未来数据的预测。逐步聚类方法通过切割或合并一系列历史的预报因子及预测量组成的矩阵,产生出预报因子与预测量之间的聚类树,假定未来预报因子与预测量之间的聚类树与历史的相同,通过全球气候模型中未来的预报因子的值,以此计算出未来的预报量。逐步聚类统计降尺度方法的优势在于不用假设预报因子与预测量之间的函数关系,通过聚类树解释多个预报因子和多个预测量之间的响应关系。
[0003]在应用中,逐步聚类统计降尺度方法要求预报因子之间不存在线性关系。然而,现实中,气候因子间往往存在多重共线性关系,例如降雨作为预测量,预报因子包括温度,气压,蒸散发,风速等,其中蒸散发与温度、风速相关,风速与气压相关,各因子间存在多重共线性关系。预报因子间的共线性问题会导致逐步聚类过程中产生不必要的切割或合并,导致聚类树无法反映真实的预报因子与预测量之间的关系,增加未来预测量的预测误差。
[0004]因此,亟需需要研发出一种能消除预报因子间共线性问题的逐步聚类统计降尺度方法。
[0005]专利技术目的
[0006]本专利技术的目的即在于解决现有技术中所存在的难题,消除逐步聚类统计降尺度过程中预报因子之间存在的多重共线性,更真实的反映预测因子与预报量之间的关系。

技术实现思路

[0007]本专利技术公开一种基于差分法消除多重共线性的逐步聚类统计降尺度方法,包括以下步骤:
[0008](1)搜集并筛选数据,将地面观测站点或再分析气候数据作为预报量,将全球气候模型GCM或区域气候模型RCM模拟的气候数据作为备选的预测因子,通过计算备选的预测因子与预报量之间的相关性,筛选出与预报量相关性高的预测因子;
[0009](2)将步骤(1)中的所述预报量按照时间序列分为两部分数据,第一部分为逐步聚类统计降尺度的模型训练阶段数据TY,第二部分为模型验证阶段数据CY;同时将所述备选的预测因子的历史数据分为训练阶段数据TX以及验证阶段数据CX;由预测因子的未来数据PX组成模型预报阶段数据;若搜集到的所述备选的预测因子的历史数据时间序列为(A

B),则训练阶段划分为(A

C),验证阶段划分为(C

B);
[0010](3)差分阶段,针对步骤(2)中所述训练阶段数据TX所存在的多重共线性问题,首先对该训练阶段数据TX做多重共线性检验,若检验不通过,则对TX中存在共线性的预报因子进行差分,差分后的预报因子设为TXD,预测量设为TYD,将差分后的TXD与TYD分别表示为TXD=XD
t

XD
t
‑1,TYD=YD
t

YD
t
‑1,其中XD
t
、XD
t
‑1分别表示t时刻和t

1时刻预报因子x的值,YD
t
、YD
t
‑1分别表示t时刻和t

1时刻预测量y的值;
[0011](4)模型训练阶段,构建逐步聚类统计降尺度训练阶段矩阵T,如式(1)所示:
[0012][0013]式中,p、q分别为预报因子x的个数,以及预报因子x的时间序列长度,k为预测量y的个数;
[0014]采用Wilks准则进行聚类的切割或合并,直到无法切割或合并,从而生成预报因子与预测量间的聚类树模型;
[0015](5)模型验证阶段,将CX作为模型的输入数据,通过步骤(4)中所生成的聚类树模型求解验证阶段的CY

,分析验证阶段的预报量CY与模型求解的CY

之间的关系,求解RMSE,R2,其中其中,n
CY
为CY的样本量,为CY的样本均值;
[0016](6)模型预测阶段,将PX作为模型输入数据,通过步骤(4)中所生成的聚类树模型求解预测阶段的PY,以此得到预报量的未来数据。
[0017]优选地,步骤(1)中筛选出与预报量相关性高的预测因子的标准为相关性大小,所述标准分为绝对标准和相对标准,其中,绝对标准是根据备选预报因子的个数n,选取其中相关性最高的前m个预报因子,且m≤n;相对标准则是选取相关性最高的前α%,其中,0≤α≤100。
[0018]优选地,步骤(4)中在切割或合并阶段,对矩阵T
q
×
(p+k

2)
进行切割,首先,按照矩阵T中的第j列按升序排序,其中1≤j≤p

1,然后,矩阵T中的第i列将矩阵分为上下两个矩阵T
u
和T
l
,其中1≤i≤q,矩阵T
q
×
(p+k

2)
表示为如式(2)所示:
[0019][0020]判断是否切割或合并的Wilks准则为其中W为组内平方和及外积矩阵之和,H为的组间平方和及外积矩阵之和;对T
u
和T
l
则有如式(3)、(4)所示关系:
[0021][0022][0023]其中,分别为T
u
,T
l
的样本均值,i(p

1),(q

i)(p

1)分别为T
u
,T
l
的样本量,对Λ进行F检验来判断聚类T
u
,T
l
是否应该切割或合并,F检验标准如式(5)所示:
[0024][0025]其中,d为筛选的预报因子的个数,当F>F
0.05
,则拒绝原假设T
u
,T
l
两类被切割;当F<F
0.05
,接受原假设T
u
,T
l
两类被合并;
[0026]当T被分为T
u
,T
l
后,对T
u
重复所述切割或合并的步骤,同时对T
l
重复所述切割或合并的步骤,令分割后的任一矩阵为e,f,其中n
e
,n
f
为矩阵的样本量,对e,f进行Wilks准则检验,当F>F
0.05
,则拒绝原假设u
e
=u
f
,e,f两类被切割;当F&l本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于差分法消除多重共线性的逐步聚类统计降尺度方法,其特征在于,包括以下步骤:(1)搜集并筛选数据,将地面观测站点或再分析气候数据作为预报量,将全球气候模型GCM或区域气候模型RCM模拟的气候数据作为备选的预测因子,通过计算备选的预测因子与预报量之间的相关性,筛选出与预报量相关性高的预测因子;(2)将步骤(1)中的所述预报量按照时间序列分为两部分数据,第一部分为逐步聚类统计降尺度的模型训练阶段数据TY,第二部分为模型验证阶段数据CY;同时将所述备选的预测因子的历史数据分为训练阶段数据TX以及验证阶段数据CX;由预测因子的未来数据PX组成模型预报阶段数据;若搜集到的所述备选的预测因子的历史数据时间序列为(A

B),则训练阶段划分为(A

C),验证阶段划分为(C

B);(3)差分阶段,针对步骤(2)中所述训练阶段数据TX所存在的多重共线性问题,首先对该训练阶段数据TX做多重共线性检验,若检验不通过,则对TX中存在共线性的预报因子进行差分,差分后的预报因子设为TXD,预测量设为TYD,将差分后的TXD与TYD分别表示为TXD=XD
t

XD
t
‑1,TYD=YD
t

YD
t
‑1,其中XD
t
、XD
t
‑1分别表示t时刻和t

1时刻预报因子x的值,YD
t
、YD
t
‑1分别表示t时刻和t

1时刻预测量y的值;(4)模型训练阶段,构建逐步聚类统计降尺度训练阶段矩阵T,如式(1)所示:式中,p、q分别为预报因子x的个数,以及预报因子x的时间序列长度,k为预测量y的个数;采用Wilks准则进行聚类的切割或合并,直到无法切割或合并,从而生成预报因子与预测量间的聚类树模型;(5)模型验证阶段,将CX作为模型的输入数据,通过步骤(4)中所生成的聚类树模型求解验证阶段的CY

,分析验证阶段的预报量CY与模型求解的CY

之间的关系,求解RMSE,R2,其中其中,n
CY
为CY的样本量,为CY的样本均值;(6)模型预测阶段,将PX作为模型输入数据,通过步骤(4)中所生成的聚类树模型求解预测阶段的PY,以此得到预报量的未来数据。2.根据权利要求1所述的逐步聚类统计降尺度方法,其特征在于,步骤(1)中筛选出与预报量相关性高的预测因子的标准为相关性大小,所述标准分为绝对标准和相对标准,其中,绝对标准是根据备选预报因子的个数n,选取其中相关性最高的前...

【专利技术属性】
技术研发人员:张重黄国和鲁晨王丝雨田初引林夏婧宋唐女
申请(专利权)人:华北电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1