一种基于spark框架的海面温度预测方法技术

技术编号:20076184 阅读:20 留言:0更新日期:2019-01-15 00:57
本发明专利技术公开了一种基于spark框架的海面温度预测方法,包括如下步骤:在spark框架下启动动态时间归整DTW算法,并从分布式文件系统中将数据载入到Spark集群,完成数据的预处理;将完成预处理的数据collect到本地生成类比模式和参考模式;在Spark框架下,调用Spark的工作集群,计算类比模式与参考模式的动态时间归整距离DTW;按动态时间归整DTW距离的大小排序后,取出前k个类比模式作为训练集,训练一个具有预测能力的模型;将参考模式作为预测模型的输入得到输出结果,再对输出结果进行反归一化处理得到最终预测结果。本发明专利技术通过历史海面温度时间序列数据预测出未来五天内的海面温度,有效克服了现有海面温度预报中预报效率和预报精度不高的问题。

Sea surface temperature prediction method based on spark framework

The invention discloses a sea surface temperature prediction method based on spark framework, which includes the following steps: starting dynamic time integration DTW algorithm under spark framework, loading data into Spark cluster from distributed file system, completing data pre-processing; collecting data pre-processed to local generated analogy mode and reference mode; calling Spark's under spark framework Work cluster calculates the dynamic time integration distance DTW of analogy mode and reference mode; after sorting the DTW distance according to the dynamic time integration, the first k analogy modes are taken as training set to train a predictive model; the reference mode is used as the input of the prediction model to get the output results, and then the output results are normalized to get the final prediction results. The invention predicts the sea surface temperature in the next five days by using the historical sea surface temperature time series data, effectively overcomes the problems of low prediction efficiency and accuracy in the existing sea surface temperature prediction.

【技术实现步骤摘要】
一种基于spark框架的海面温度预测方法
本专利技术涉及海面温度预测领域,具体地说,特别涉及到一种基于spark框架的海面温度预测方法。
技术介绍
海面温度是研究海洋环境、全球水循环、气候的监测和预测中一个极其重要的参数。海表面单个记录点的历史温度数据,是典型的长时间序列数据,而且全球范围内的海表面温度数据量太过庞大,用传统的方法同时对全球的海表面温度进行预测时,处理数据的时效性无法保障,在一定程度上对预报效率有影响。因此如何使用大数据处理平台和新的处理技术来分析、预测并实时处理海面温数据,是一个亟待解决的问题。时间序列相似性度量是数据挖掘中的关键技术,其主要任务是从模式数据库中寻找到与给定时间序列模式相似的时间序列模式。在海洋领域中,海面温度变化有一定的变化周期,通过时间序列相似性度量可以计算出海面温度时间序列模式之间的相似性,能够有效的发现其变化规律,并用于海温预报,具有广泛的应用价值。近年来,海面温预报的研究方法总体上可概括为统计预报法、数值预报法和经验预报法。时间序列预测方法可分为线性预测方法和非线性预测方法两类,由于海面温具有非线性、非平稳的特性,因此人们逐渐将许多非线性时间序列的预测方法应用到海温预报中。ZhaojunDong等人提出了基于相空间重构与模糊神经网络耦合的海温预测模型,在海温预报中引入混沌理论,挖掘出了海面温变化的空间信息,预测精度较高。JiakangLi等人提出了基于改进EMD算法和BP神经网络的SST预测研究,有效解决了非平稳非线性序列预测的问题并提高了预测精度。Augowidodo等人提出了基于时间序列相似性的预测方法,有效的挖掘出了时间序列的潜在信息,在预测方面取得了较好的成果,但目前并未应用于海温预测中。JianleSun等人在对时间序列相似性度量方法和类比合成法的研究基础上,设计出了适用性较强的时间序列趋势预测模型,并以真实股票价格数据进行实验,取得了好的效果。虽然许多非线性预测方法已经被广泛应用于海面温预测,但是这些方法依然存在以下三个问题:(1)如何高效的处理海量的海面温时间序列数据是一个巨大的挑战;(2)在长期预测中,预测的效果就不太理想,提高预报时长也是海温预报中的重点问题;(3)在区域预测中,部分地区差异性较大时,预测结果就不太好,因此预测方法的适用性有待提高。
技术实现思路
本专利技术的目的在于针对现有技术中的不足,提供一种基于spark框架的海面温度预测方法,其属于经验预报法,针对海面温自身变化的相似性,做出定量预报。在预测中分析自身变化的规律,而实质上是对影响海面温变化的各个要素作用后的结果进行分析,挖掘出海面温时间序列的潜在趋势,对海温预测具有重大意义。本专利技术所解决的技术问题可以采用以下技术方案来实现:本专利技术通过历史海面温度时间序列数据预测出未来五天内的海面温度,有效克服了现有海面温度预报中存在的数据量大导致预报效率不高、以及未充分利用挖掘出的海面温度时间序列的潜在趋势而使得预报精度不高的问题。与现有技术相比,本专利技术的有益效果在于:(1)将DTW算法设计在spark框架下运行,有效的提高了效率。(2)通过DTW算法有效挖掘出时间序列潜在的信息,应用在海面温预测中提高了精度。(3)将DTW算法与BP神经网络相结合,进行多任务时间序列预测,使得挖掘出的信息能够互补,提高了预测的精度。附图说明图1为本专利技术所述的基于spark框架的海面温度预测方法的流程示意图。图2为本专利技术所述的步骤(3)中spark框架下并行化计算DTW距离示意图。具体实施方式为使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本专利技术。参见图1和图2,本专利技术所述的一种基于spark框架的海面温度预测方法,其特征在于,包括如下步骤:(1)在spark框架下启动动态时间归整DTW算法,并从分布式文件系统中将数据载入到Spark集群,完成数据的预处理;(2)将完成预处理的数据collect到本地生成类比模式和参考模式;(3)在Spark框架下,调用Spark的工作集群,计算类比模式与参考模式的动态时间归整距离DTW;(4)按动态时间归整DTW距离的大小排序后,取出前k个类比模式作为训练集,训练一个具有预测能力的模型;(5)将参考模式作为预测模型的输入得到输出结果,再对输出结果进行反归一化处理得到最终预测结果。所述步骤(1)的实现方法如下:(1-1)从分布式文件系统中载入数据到Spark集群;所述数据存储在分布式文件系统上,启动spark集群,从分布式文件系统中分布式读取文件到Spark集群;(1-2)数据预处理读取数据后,需要对数据进行预处理,提取实验所需要的海面温度时间序列数据,去除冗余的信息。所述步骤(2)的实现方法如下:(2-1)collect到本地collect将分布式的RDD返回为一个单机的Array数组;(2-2)生成参考模式和类比模式先取数组的后二十天的海面温度时间序列数据,将二十天中的前十五天的数据作为参考模式,后五天作为测试集,用以检验模型的精准度;类比模式将从去掉后二十天的海面温度时间序列数据中生成,以十五天为模式长度,从海面温度时间序列的第一个元素开始,依次间隔三天生成类比模式,并将各个模式的第一天在原序列中的位置t与类比模式、参考模式一起保存,便于后续在原序列中找到匹配出的类比模式的后五天的海面温度,便于预测模型的训练。所述步骤(3)的实现方法如下:(3-1)在Spark框架下,调用Spark集群调用SparkContext的parallelize(),创建一个并行集合,对于数据集分割后的partition数目,spark集群会为每个partition运行一个task,以达到并行计算的目的;(3-2)计算类比模式与参考模式的DTW距离通过map操作,调用函数get_udf_distance()并行计算类比模式和参考模式的动态时间归整DTW距离;在计算序列之间的动态时间归整DTW距离时,分两步进行:一是求出匹配距离矩阵即构建一个n×m矩阵,二是寻找最佳路径,即在矩阵网络中找到一条长度为K的最短路径,L=(w1,w2,…,wk),其中max(n,m)≤K≤n+m-1;最短路径选择需要满足以下约束条件:1)边界条件序列两点要对齐,确定了路径的起点为(A1,C1),终点为(An,Cn);2)连续性对于路径上的任意一点每次只能沿矩阵相邻元素移动;即如果w1=(A1,C1)那么对于路径的下一个点w2=(A,C)要满足(A-A1)≤1和(C-C1)≤1;3)单调性对于路径上的任意一点每次只能沿着时间轴单向移动;即如果w1=(A1,C1)那么对于路径的下一个点w2=(A,C)要满足(A-A1)≥0和(C-C1)≥0;满足上述约束条件且对应路径距离最短的就是动距离,其用式(1)表示为其中动态时间归整DTW距离刻画了参考模式和类比模式的相似程度,动态时间归整DTW距离越小,表明两种模式越相似,反之,则越不相似;类比模式表示为A=A1,A2,···,An-1,An其中n代表类比模式的长度;参考模式表示为C=C1,C2,···,Cm-1,Cm其中m是参考模式的长度。所述步骤(4)的实现方法如下:(4-1)按动态时间归整DTW距离大小进行排序并取出本文档来自技高网
...

【技术保护点】
1.一种基于spark框架的海面温度预测方法,其特征在于,包括如下步骤:(1)在spark框架下启动动态时间归整DTW算法,并从分布式文件系统中将数据载入到Spark集群,完成数据的预处理;(2)将完成预处理的数据collect到本地生成类比模式和参考模式;(3)在Spark框架下,调用Spark的工作集群,计算类比模式与参考模式的动态时间归整距离DTW;(4)按动态时间归整DTW距离的大小排序后,取出前k个类比模式作为训练集,训练一个具有预测能力的模型;(5)将参考模式作为预测模型的输入得到输出结果,再对输出结果进行反归一化处理得到最终预测结果。

【技术特征摘要】
1.一种基于spark框架的海面温度预测方法,其特征在于,包括如下步骤:(1)在spark框架下启动动态时间归整DTW算法,并从分布式文件系统中将数据载入到Spark集群,完成数据的预处理;(2)将完成预处理的数据collect到本地生成类比模式和参考模式;(3)在Spark框架下,调用Spark的工作集群,计算类比模式与参考模式的动态时间归整距离DTW;(4)按动态时间归整DTW距离的大小排序后,取出前k个类比模式作为训练集,训练一个具有预测能力的模型;(5)将参考模式作为预测模型的输入得到输出结果,再对输出结果进行反归一化处理得到最终预测结果。2.根据权利要求1所述的基于spark框架的海面温度预测方法,其特征在于,所述步骤(1)的实现方法如下:(1-1)从分布式文件系统中载入数据到Spark集群;所述数据存储在分布式文件系统上,启动spark集群,从分布式文件系统中分布式读取文件到Spark集群;(1-2)数据预处理读取数据后,需要对数据进行预处理,提取实验所需要的海面温度时间序列数据,去除冗余的信息。3.根据权利要求1所述的基于spark框架的海面温度预测方法,其特征在于,所述步骤(2)的实现方法如下:(2-1)collect到本地collect将分布式的RDD返回为一个单机的Array数组;(2-2)生成参考模式和类比模式先取数组的后二十天的海面温度时间序列数据,将二十天中的前十五天的数据作为参考模式,后五天作为测试集,用以检验模型的精准度;类比模式将从去掉后二十天的海面温度时间序列数据中生成,以十五天为模式长度,从海面温度时间序列的第一个元素开始,依次间隔三天生成类比模式,并将各个模式的第一天在原序列中的位置t与类比模式、参考模式一起保存,便于后续在原序列中找到匹配出的类比模式的后五天的海面温度,便于预测模型的训练。4.根据权利要求1所述的基于spark框架的海面温度预测方法,其特征在于,所述步骤(3)的实现方法如下:(3-1)在Spark框架下,调用Spark集群调用SparkContext的parallelize(),创建一个并行集合,对于数据集分割后的partition数目,spark集群会为每个partition运行一个task,以达到并行计算的目的;(3-2)计算类比模式与参考模式的DTW距离通过map操作,调用函数get_udf_distance()并行计算类比模式和参考模式的动态时间归整DTW距离;在计算序列之...

【专利技术属性】
技术研发人员:黄冬梅贺琪查铖宋巍郑小罗梅海彬
申请(专利权)人:上海海洋大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1