一种基于spark框架的海面温度预测方法技术

技术编号：20076184 阅读：20 留言：0更新日期：2019-01-15 00:57

本发明专利技术公开了一种基于spark框架的海面温度预测方法，包括如下步骤：在spark框架下启动动态时间归整DTW算法，并从分布式文件系统中将数据载入到Spark集群，完成数据的预处理；将完成预处理的数据collect到本地生成类比模式和参考模式；在Spark框架下，调用Spark的工作集群，计算类比模式与参考模式的动态时间归整距离DTW；按动态时间归整DTW距离的大小排序后，取出前k个类比模式作为训练集，训练一个具有预测能力的模型；将参考模式作为预测模型的输入得到输出结果，再对输出结果进行反归一化处理得到最终预测结果。本发明专利技术通过历史海面温度时间序列数据预测出未来五天内的海面温度，有效克服了现有海面温度预报中预报效率和预报精度不高的问题。

Sea surface temperature prediction method based on spark framework

The invention discloses a sea surface temperature prediction method based on spark framework, which includes the following steps: starting dynamic time integration DTW algorithm under spark framework, loading data into Spark cluster from distributed file system, completing data pre-processing; collecting data pre-processed to local generated analogy mode and reference mode; calling Spark's under spark framework Work cluster calculates the dynamic time integration distance DTW of analogy mode and reference mode; after sorting the DTW distance according to the dynamic time integration, the first k analogy modes are taken as training set to train a predictive model; the reference mode is used as the input of the prediction model to get the output results, and then the output results are normalized to get the final prediction results. The invention predicts the sea surface temperature in the next five days by using the historical sea surface temperature time series data, effectively overcomes the problems of low prediction efficiency and accuracy in the existing sea surface temperature prediction.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于spark框架的海面温度预测方法
本专利技术涉及海面温度预测领域，具体地说，特别涉及到一种基于spark框架的海面温度预测方法。
技术介绍
海面温度是研究海洋环境、全球水循环、气候的监测和预测中一个极其重要的参数。海表面单个记录点的历史温度数据，是典型的长时间序列数据，而且全球范围内的海表面温度数据量太过庞大，用传统的方法同时对全球的海表面温度进行预测时，处理数据的时效性无法保障，在一定程度上对预报效率有影响。因此如何使用大数据处理平台和新的处理技术来分析、预测并实时处理海面温数据，是一个亟待解决的问题。时间序列相似性度量是数据挖掘中的关键技术，其主要任务是从模式数据库中寻找到与给定时间序列模式相似的时间序列模式。在海洋领域中，海面温度变化有一定的变化周期，通过时间序列相似性度量可以计算出海面温度时间序列模式之间的相似性，能够有效的发现其变化规律，并用于海温预报，具有广泛的应用价值。近年来，海面温预报的研究方法总体上可概括为统计预报法、数值预报法和经验预报法。时间序列预测方法可分为线性预测方法和非线性预测方法两类，由于海面温具有非线性、非平稳的特性，因此人们逐渐将许多非线性时间序列的预测方法应用到海温预报中。ZhaojunDong等人提出了基于相空间重构与模糊神经网络耦合的海温预测模型，在海温预报中引入混沌理论，挖掘出了海面温变化的空间信息，预测精度较高。JiakangLi等人提出了基于改进EMD算法和BP神经网络的SST预测研究，有效解决了非平稳非线性序列预测的问题并提高了预测精度。Augowidodo等人提出了基于时间序列相似性的预测方法，有效...

【技术保护点】
1.一种基于spark框架的海面温度预测方法，其特征在于，包括如下步骤：(1)在spark框架下启动动态时间归整DTW算法，并从分布式文件系统中将数据载入到Spark集群，完成数据的预处理；(2)将完成预处理的数据collect到本地生成类比模式和参考模式；(3)在Spark框架下，调用Spark的工作集群，计算类比模式与参考模式的动态时间归整距离DTW；(4)按动态时间归整DTW距离的大小排序后，取出前k个类比模式作为训练集，训练一个具有预测能力的模型；(5)将参考模式作为预测模型的输入得到输出结果，再对输出结果进行反归一化处理得到最终预测结果。

【技术特征摘要】
1.一种基于spark框架的海面温度预测方法，其特征在于，包括如下步骤：(1)在spark框架下启动动态时间归整DTW算法，并从分布式文件系统中将数据载入到Spark集群，完成数据的预处理；(2)将完成预处理的数据collect到本地生成类比模式和参考模式；(3)在Spark框架下，调用Spark的工作集群，计算类比模式与参考模式的动态时间归整距离DTW；(4)按动态时间归整DTW距离的大小排序后，取出前k个类比模式作为训练集，训练一个具有预测能力的模型；(5)将参考模式作为预测模型的输入得到输出结果，再对输出结果进行反归一化处理得到最终预测结果。2.根据权利要求1所述的基于spark框架的海面温度预测方法，其特征在于，所述步骤(1)的实现方法如下：(1-1)从分布式文件系统中载入数据到Spark集群；所述数据存储在分布式文件系统上，启动spark集群，从分布式文件系统中分布式读取文件到Spark集群；(1-2)数据预处理读取数据后，需要对数据进行预处理，提取实验所需要的海面温度时间序列数据，去除冗余的信息。3.根据权利要求1所述的基于spark框架的海面温度预测方法，其特征在于，所述步骤(2)的实现方法如下：(2-1)collect到本地collect将分布式的RDD返回为一个单机的Array数组；(2-2)生成参考模式和类比模式先取数组的后二十天的海面温度时间序列数据，将二十天中的前十五天的数据作为参考模式，后五天作为测试集，用以检验模型的精准度；类比模式将从去掉后二十天的海面温度时间序列数据中生成，以十五天为模式长度，从海面温度时间序列的第一个元素开始，依次间隔三天生成类比模式，并将各个模式的第一天在原序列中的位置t与类比模式、参考模式一起保存，便于后续在原序列中找到匹配出的类比模式的后五天的海面温度，便于预测模型的训练。4.根据权利要求1所述的基于spark框架的海面温度预测方法，其特征在于，所述步骤(3)的实现方法如下：(3-1)在Spark框架下，调用Spark集群调用SparkContext的parallelize()，创建一个并行集合，对于数据集分割后的partition数目，spark集群会为每个partition运行一个task，以达到并行计算的目的；(3-2)计算类比模式与参考模式的DTW距离通过map操作，调用函数get_udf_distance()并行计算类比模式和参考模式的动态时间归整DTW距离；在计算序列之...

【专利技术属性】
技术研发人员：黄冬梅，贺琪，查铖，宋巍，郑小罗，梅海彬，
申请(专利权)人：上海海洋大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人