当前位置: 首页 > 专利查询>河海大学专利>正文

基于主成分分析的多元水文时间序列匹配模型构建方法技术

技术编号:17780065 阅读:225 留言:0更新日期:2018-04-22 08:45
本发明专利技术公开了一种基于主成分分析的多元水文时间序列匹配模型构建方法,基于主成分分析(PCA)和动态时间弯曲(DTW)方法进行多元水文时间序列相似性匹配的组合模型构建。首先对原始数据进行同构处理,这里采用Z‑score标准化方法。接着对处理后的数据进行分段聚合近似(PAA)处理,对经过PAA处理后的数据进行PCA处理,经过这两次处理,数据在时间维度和变量维度都实现了降维。最后使用加权的DTW方法进行相似性匹配,匹配出与给定时间序列最相似的时间序列。本发明专利技术提高了相似性匹配的准确率和时间效率,为水文预报、水文数据分析提供服务,对水利信息化和水利现代化的需求有较高的应用价值。

【技术实现步骤摘要】
基于主成分分析的多元水文时间序列匹配模型构建方法
本专利技术涉及一种基于数据挖掘和水文时间序列相似性匹配的模型构建方法,具体地说,是一种对多元水文时间序列进行相似性匹配的方法,从历史水文时间序列中匹配出与给定时间序列最相似的序列。
技术介绍
随着信息技术的发展,水文数据的种类和数量急剧增加,逐渐呈现出多元、大量和多态的特征。根据多元水文时间序列的特点,选用高效的数据挖掘算法,从大量的水文时间序列数据中提取有用的信息和知识,为解决水文领域的突出问题提供新的分析方法和科学的决策支持。传统水文数据挖掘方法面对如今数量巨大、类型复杂的水文数据资料,往往显得无能为力。目前对于水文时间序列的研究大多是基于一元水文时间序列,由于多元水文时间序列不同维度之间的复杂联系,其研究工作开展得相对缓慢,目前很多工作还处于起步阶段。
技术实现思路
专利技术目的:针对现有的多元水文时间序相似性匹配方法效率和准确率较差、不具有针对性的缺点,本专利技术提供一种基于主成分分析的多元水文时间序列匹配模型构建方法。技术方案:为实现上述专利技术目的,本专利技术使用第三方软件R作为程序编制和模型仿真预测的工具,分为三个部分,分别是数据预处理、模式表示和相似性匹配。由于水文时间序列大多来源于传感器的记录,通常具有很高的维度和很长的序列,并且包含大量噪音,因此需要对其进行预处理,降低对相似性匹配的干扰。模式表示包括对数据进行PAA和PCA处理,实现时间序列在时间维度和变量维度上的降维。相似性匹配采用加权的DTW作为距离度量的方法。与现有一些技术相比,本专利技术的有益效果是在多元水文时间序列的相似性匹配问题中,提高了多元水文时间序列匹配的效率和准确性。一种基于主成分分析的多元水文时间序列匹配模型构建方法,主要实现步骤如下:步骤1:对水文时间序列数据进行标准化处理,统一数据单位;可以根据实际需求选择合适的标准化方法,目的是为了消除由于单位不同可能带来的影响;步骤2:对标准化后的时间序列应用分段聚合近似(PAA)方法,,得到多元时间序列的矩阵表示Xn×m(m表示变量个数,n表示时间长度),在应用PAA方法时,根据实际情况选择合适的分段长度,对于时间序列数据挖掘,只需关注序列的整体形态和趋势。如果只需要表示时间序列的大致形态,可以选择较长的分段长度,来获得较高的数据压缩率,提高挖掘效率。如果要保留较多时间序列的细节,则应该选择较短分段长度。步骤3:对经过步骤2处理后的时间序列Xn×m进行主成分分析,首先需要计算数据集中变量之间的协方差,得到一个协方差矩阵Sm×m(m表示多元时间序列中变量个数),再通过奇异值分解对协方差矩阵进行特征值和特征向量分解,选择累计方差贡献率达到预设值的前k个特征值按大小排序,并将其对应的特征向量组合成特征向量矩阵Um×k;步骤4:把步骤2得到的数据Xn×m映射到特征向量矩阵上Yn×k=Xn×mUm×k,实现降维处理,同时把特征向量的方差贡献率作为权重w。步骤5:使用步骤4得到的方差贡献率作为权重w,将给定的时间序列与步骤4映射后的数据Yn×k使用加权的DTW方法进行相似性匹配。即:其中X[i:-]表示由矩阵X的第i个列向量到最后一个列向量组成的子序列。Dbase(ai,bj)表示向量ai和bj之间的基距离,计算方式为:wi、wj是向量ai、bj对应的特征向量的贡献率,这里作为权重。步骤6:通过计算在数据集中匹配出与给定时间序列最为相似即距离最小的一个或者多个时间序列。优选地,所述步骤2中,采用PAA方法,将长度为s的时间序列平均分成v段,每段序列具有相同的长度l,并且利用每段序列的均值来近似表示该序列段,是一个压缩比例为l=s/v的数据降维过程,由于多元水文时间序列各变量之间存在相关性,因此对全部相关变量同时进行分段操作,符合多元水文时间序列的特点。优选地,所述步骤3中,在多元水文时间序列中,部分维度是噪音冗余不相关的,保留它们反而降低了整体模型的性能。多元时间序列是集成数据,也就是说它们的各维度高度相关。通过主成分分析既可以降低数据维数,又保留了原数据的大部分信息。该方法将原始数据看作一个整体,通过把数据从高维空间向低维空间投影的方式起到降维的作用。优选地,所述步骤5中,使用加权的DTW作为多元水文时间序列距离度量方法,多元时间序列在进行模式匹配时,各主成分的重要程度不同,因此使用权重进行区分。由于数据集在很大程度上进行了约减,所以匹配效率有较大的提升。本专利技术采用上述技术方案,具有以下有益效果:对于多元时间序列的相似性匹配,引入了一种新的组合预测模型,该模型在多元水文时间序列特点的基础上,把当前高效的方法综合起来,充分利用各方法的优点,不仅提高了匹配的效率,在匹配的准确率上也有很大的提高。附图说明图1为本专利技术实施例的体系结构与方法流程图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。如图1所示,基于主成分分析的多元水文时间序列匹配模型构建方法,包括如下步骤:步骤1:本实例以X河流域中的四个站点:三XX、红XX、划XX、葛X的日均水位数据作为数据集,提取其中较完整的从2010年至2016年的数据,对其进行标准化处理,这里采用Z-score标准化方法:Xi=(Xi–μi)/σi,其中μi和σi分别为单变量时间序列Xi的均值和标准差,经过预处理和标准化处理后共10228条记录;步骤2:取分段长度4,进行分段聚合近似PAA处理,处理后数据集共有2557条记录,压缩率为75%;步骤3:对经过步骤2处理后的数据集中的数据进行主成分分析,首先需要计算数据集中变量之间的协方差,得到一个协方差矩阵,再通过奇异值分解对协方差矩阵进行特征值和特征向量分解,这里选择累计贡献率达到90%的前k个特征值按大小排序,并将其对应的特征向量组合成特征向量矩阵;步骤4:把步骤2得到的数据映射到特征向量矩阵上,实现了降维处理,同时把特征向量的贡献率作为权重。步骤5:使用加权DTW方法,把给定的时间序列与经过步骤4处理后的数据进行相似性匹配。步骤6:通过计算在数据集中匹配出与给定时间序列最为相似即距离最小的一个或者多个时间序列。本文档来自技高网...
基于主成分分析的多元水文时间序列匹配模型构建方法

【技术保护点】
一种基于主成分分析的多元水文时间序列匹配模型构建方法,其特征在于,包括如下步骤:步骤1:对水文时间序列数据进行标准化处理,统一数据单位;步骤2:对标准化后的时间序列应用分段聚合近似(PAA)方法,对多元时间序列进行分段,得到多元时间序列的矩阵表示Xn×m;步骤3:对经过步骤2处理后的时间序列的矩阵Xn×m进行主成分分析;步骤4:把步骤2得到的时间序列的矩阵Xn×m映射到特征向量矩阵上,实现降维处理,同时把特征向量的方差贡献率作为权重;步骤5:把步骤4得到的方差贡献率作为权重,将给定的时间序列与步骤4映射后的数据使用加权的DTW方法进行相似性匹配;步骤6:通过计算在数据集中匹配出与给定时间序列最为相似即距离最小的一个或者多个时间序列。

【技术特征摘要】
1.一种基于主成分分析的多元水文时间序列匹配模型构建方法,其特征在于,包括如下步骤:步骤1:对水文时间序列数据进行标准化处理,统一数据单位;步骤2:对标准化后的时间序列应用分段聚合近似(PAA)方法,对多元时间序列进行分段,得到多元时间序列的矩阵表示Xn×m;步骤3:对经过步骤2处理后的时间序列的矩阵Xn×m进行主成分分析;步骤4:把步骤2得到的时间序列的矩阵Xn×m映射到特征向量矩阵上,实现降维处理,同时把特征向量的方差贡献率作为权重;步骤5:把步骤4得到的方差贡献率作为权重,将给定的时间序列与步骤4映射后的数据使用加权的DTW方法进行相似性匹配;步骤6:通过计算在数据集中匹配出与给定时间序列最为相似即距离最小的一个或者多个时间序列。2.如权利要求1所述的基于主成分分析的多元水文时间序列匹配模型构建方法,其特征在于,主成分分析为:首先需要计算数据集中变量之间的协方差,得到一个协方差矩阵,再通过奇异值分解对协方差矩阵进行特征值和特征向量分解,选择累计贡献率达到...

【专利技术属性】
技术研发人员:娄渊胜盖振叶枫孙建树
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1