当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于加权相关马氏距离的水文时间序列模式库构建方法技术

技术编号:33783120 阅读:10 留言:0更新日期:2022-06-12 14:37
本发明专利技术公开一种基于加权相关马氏距离的水文时间序列模式库构建方法,包括对马氏距离进行优化获得加权相关马氏距离;选取多元时间序列作为实验数据;对预处理数据集进行PAA分段降维获得多元时间序列特征向量;采用基于加权相关马氏距离的层次聚类方法对多元时间序列特征向量进行聚类并符号化表示,一个符号表示一个聚类中心,属于同一类的特征向量符号相同,将特征向量转换成字符串,根据各聚类中心的加权相关马氏距离记录符号之间的距离;利用动态时间弯曲距离算法计算各字符串之间的相似性距离;最后根据距离聚类构建多元水文时间序列模式库。本发明专利技术可以提高多元水文时间序列模式库结果的准确性。模式库结果的准确性。模式库结果的准确性。

【技术实现步骤摘要】
一种基于加权相关马氏距离的水文时间序列模式库构建方法


[0001]本专利技术属于水文数据挖掘技术,具体涉及一种基于加权相关马氏距离的水文时间序列模式库构建方法。

技术介绍

[0002]随着大数据时代的蓬勃发展,水文数据挖掘受到的重视程度也越来越高,水文数据包括了流域流量信息,测站雨量信息等重要数据,在环境、地理、以及人类活动的影响下,这些信息之间必然存在着一些规律。如何从这些数据当中挖掘出一些有利的信息以及它们之间相关的联系,并参照它们的发展规律发现序列的演变趋势同时将之应用于水文预报当中是当下研究的重点之一。
[0003]数据挖掘又称之为知识发现,是指从大量数据中抽取出那些隐含的、令人感兴趣的、有价值的知识的过程。数据挖掘是数据库技术的深层次应用,可以进一步提高信息资源的使用价值和使用效益,能更好的解决日益复杂多变的决策问题,进一步提高了决策的准确性和可靠性,为科学决策提供依据。在水文领域应用数据挖掘技术有着十分重要的意义,数据挖掘技术可以从海量的数据当中寻找出有用的信息,并构建准确的模型,因此研究数据挖掘技术以及方法,为水文科学的发展延伸了一个全新的方向。数据挖掘是构建模式库的方法,从大量时间序列中找到它们之间相似的规律,并把相似规律进行聚类得到的集合称为模式库。
[0004]目前,中小河流水文时间序列模式库构建方法大多是基于一元水文时间序列,多元水文时间序列模式库构建方法较少,因此提出一种中小河流多元水文时间序列模式库构建方法是十分有意义的。

技术实现思路

[0005]专利技术目的:本专利技术的目的在于解决现有技术中存在的不足,提供一种基于加权相关马氏距离的水文时间序列模式库构建方法,通过数据挖掘的相关技术,对多元水文时间序列进行相似性分析和聚类。
[0006]技术方案:本专利技术的一种基于加权相关马氏距离的水文时间序列模式库构建方法,包括以下步骤:
[0007]步骤S1、对原始多元水文时间序列进行数据预处理,补全水文时间序列当中的空缺值。
[0008]步骤S2、利用分段线性表示(PAA)方法,将多元时间序列分段,对于每一个特征,提取每个分段子序列的平均值,然后把每个分段的所有特征的特征向量进行组合形成多元时间序列特征向量,这种做法不但能抓取时间序列的主要特征,而且也降低了时间序列的维度。
[0009]步骤S3、对马氏距离进行优化,使用CRITIC权重法对不同时间序列的协方差矩阵中的变量加权处理,对加权后的矩阵求平均矩阵得到加权相关协方差矩阵,将加权相关协
方差矩阵替代马氏距离中的协方差矩阵获得加权相关马氏距离。
[0010]步骤S4、在获取多元时间序列的特征向量之后,使用基于加权相关马氏距离的层次聚类算法对数据集中的特征向量聚类并符号化表示,记录每个符号之间的距离构建符号距离表。
[0011]步骤S5、利用动态时间弯曲距离算法计算符号化表示的时间序列之间的距离值,其中依据符号距离表替换动态时间弯曲距离算法中的欧氏距离度量,根据距离值进行聚类构建多元水文时间序列模式库。
[0012]进一步,所述步骤S3中对马氏距离进行优化得到加权相关马氏距离的具体步骤为:
[0013]步骤S3.1、输入多元时间序列数据集R={X1,X2,X3,...,X
T
,将数据集R中的所有多元时间序列标准化预处理,去除序列中每个特征之间的量纲影响。
[0014]步骤S3.2、计算数据集R中所有多元时间序列的协方差矩阵,设其特征维度依次记为x,y,z,记为U={M1,M2,M3,...,M
i
,...,M
n
},其表达式为:
[0015][0016]该矩阵中cov(x,y)表示特征x与y的协方差,其计算公式为:
[0017][0018]其中各维度的数据长度为n,表示x特征的平均值,表示y特征的平均值。
[0019]步骤S3.3、对于需要计算的时间序列特征向量k1、k2,它们属于两个不同的时间序列数据集X
p
、X
q
,其对应的协方差矩阵为M
p
、M
q
,利用CRITIC权重法计算出各个指标的权重,CRITIC权重法是一种利用数据波动性大小计算权重的方法,它有两个指标分别为对比强度与冲突性指标,使用标准差表示对比强度指标,计算公式如下:
[0020][0021]其中,表示第t个变量的平均值,S
t
表示第t个变量的标准差,n表示矩阵的行数,如果数据标准差越小则说明波动越小,权值也越小,使用相关系数表冲突性指标,计算公式如下:
[0022][0023]其中,R
t
表示第t个变量的冲突性指标,r
gt
表示第g个变量与第t个变量之间的相关系数,如果与其他变量的相关系数值越小,说明冲突性越大,权值则越大,计算权值时,将对
比强度S
t
与冲突性指标R
t
相乘获得信息量F
t
,则第t个变量的权重计算公式为:
[0024][0025]将计算出的权值与协方差矩阵中对应的变量相乘并替换原始协方差矩阵中的数据,最后对加权后的两个协方差矩阵求平均矩阵获得加权相关协方差矩阵。
[0026]步骤S3.4、将马氏距离公式中的协方差矩阵替换成加权相关协方差矩阵计算多元特征向量之间的加权相关马氏距离,马氏距离如下:
[0027][0028]其中S
‑1为协方差矩阵,g
i
,g
j
为样本向量。
[0029]进一步,所述步骤S4的详细内容为:
[0030]步骤S4.1、获得将全部的多元时间序列特征向量视为单独的类,分别计算类与类之间的加权相关马氏距离。
[0031]步骤S4.2、将加权相关马氏距离数值最小的两个类归并成一个新类。
[0032]步骤S4.3、继续计算新类与其它类之间的距离。
[0033]步骤S4.4、重复操作步骤S4.2与S4.3,当聚类稳定以后停止重复操作。
[0034]步骤S4.5、输出聚类的结果和聚类中心。
[0035]步骤S4.6、根据聚类中心的每个特征向量,计算两两特征向量之间的加权相关马氏距离作为相应符号之间的距离,从而构建符号距离表。
[0036]步骤S4.7、对聚类中心赋予符号,属于同一类的特征向量符号一致,最终将多元特征向量符号化。
[0037]有益效果:与现有技术相比,本专利技术具有以下优点。
[0038](1)本专利技术中对马氏距离进行改进优化,将各多元时间序列集合之间的协方差矩阵关联性以及协方差矩阵中各个维度之间的协方差在计算过程中的影响程度考虑在内,让马氏距离可以度量不同多元时间序列之间的相似性。
[0039](2)本专利技术层次聚类算法进行改进优化,将其中的相似性度量方法换为加权相关马氏距离,提高了多元时间序列聚类的准确性。
附图说明
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于加权相关马氏距离的水文时间序列模式库构建方法,其特征在于:包括以下步骤:步骤S1、对原始多元水文时间序列进行数据预处理,补全水文时间序列当中的空缺值;步骤S2、利用分段线性表示(PAA)方法,将多元时间序列分段,对于每一个特征,提取每个分段子序列的平均值,然后把每个分段的所有特征的特征向量进行组合形成多元时间序列特征向量,这种做法不但能抓取时间序列的主要特征,而且也降低了时间序列的维度;步骤S3、对马氏距离进行优化,使用CRITIC权重法对不同时间序列的协方差矩阵中的变量加权处理,对加权后的矩阵求平均矩阵得到加权相关协方差矩阵,将加权相关协方差矩阵替代马氏距离中的协方差矩阵获得加权相关马氏距离;步骤S4、在获取多元时间序列的特征向量之后,使用基于加权相关马氏距离的层次聚类算法对数据集中的特征向量聚类并符号化表示,记录每个符号之间的距离构建符号距离表;步骤S5、利用动态时间弯曲距离算法计算符号化表示的时间序列之间的距离值,其中依据符号距离表替换动态时间弯曲距离算法中的欧氏距离度量,根据距离值进行聚类构建多元水文时间序列模式库。2.根据权利要求1所述的基于加权相关马氏距离的水文时间序列模式库构建方法,其特征在于:所述步骤S3中对马氏距离进行优化得到加权相关马氏距离,加权相关马氏距离能将各时间序列集合之间协方差矩阵的关联性考虑在内;其中,计算加权相关马氏距离具体步骤为:步骤S3.1、输入多元时间序列数据集R={X1,X2,X3,...,X
T
},将数据集R中的所有多元时间序列标准化预处理,去除序列中每个特征之间的量纲影响;步骤S3.2、计算数据集R中所有多元时间序列的协方差矩阵,设其特征维度依次记为x,y,z,记为U={M1,M2,M3,...,M
i
,...,M
n
},其表达式为:该矩阵中cov(x,y)表示特征x与y的协方差,其计算公式为:其中各维度的数据长度为n,表示x特征的平均值,表示y特征的平均值;步骤S3.3、对于需要计算的时间序列特征向量k1、k2,它们属于两个不同的时间序列数据集X
p
、X
q
,其对应的协方差矩阵为M
p...

【专利技术属性】
技术研发人员:顾华杰万定生余宇峰
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1