一种基于大数据的气象数据不一致性的时间维度统一方法技术

技术编号:20160349 阅读:24 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了基于大数据的气象数据不一致性的时间维度统一方法,包括以下步骤:步骤1:对收集的数据,先求出每个气象属性的均值及方差,对每一个气象属性进行标准化;步骤2:对标准化后的样本,选择若干个站点数据,同一时间的数据作为一条记录,按照可重复抽样原则,生成样本集;步骤3:对每一个样本集,按照一致性气象属性,进行分类,得到若干分类器,生成随机森林;步骤4:根据生成的随机森林,按照一致性气象属性,逐步分类,根据分类器,预测不一致数据;步骤5:根据预测的数据与不一致数据,计算标准化距离最小的记录值,为最后选择的值。本发明专利技术主要从时间维度,解决气象序列数据不一致性问题。

【技术实现步骤摘要】
一种基于大数据的气象数据不一致性的时间维度统一方法
本专利技术涉及气象序列数据领域。主要针对气象数据不一致性问题,提出时间维度解决方法。
技术介绍
气象序列数据不一致性问题主要原因有两个:由于管理等问题导致的不同数据在各个不同数据库之间的数据不一致性问题;由于观测站点变迁及设备更新导致的数据集在时间序列上存在阶段性系统偏差问题。数据是信息的载体之一。做为社会公益部门的、以信息服务为基本业务特征的气象部门,从诞生之日起便与数据有着生死与共的紧密关系,没有数据,气象工作的一切便无从谈起。气象部门的各种业务人员,每日在各自的岗位上的所说和所做,无不与数据相关。气象部门离不开数据,数据是维系气象部门生命的血液。气象数据尤其是气象序列数据不一致性问题,是进行气象计算,气象业务的基础。温华洋从数据“热备份”角度提出了基于空间一致性的主备法,在此基础上进一步从统计学基本原理以及保证数据连续角度提出了基于空间一致性的差值订正合成法两种数据处理算法(温华洋,徐光清,华连生,等.“双套站”数据处理方法探索[C]//苏皖两省大气探测、环境遥感与电子技术学术交流研讨会.2011.)。随着大数据时代的来临,基于大数据的分析方法,为解决气象序列数据不一致性问题提供了可能。
技术实现思路
针对上述技术问题,本专利技术提供一种基于大数据的气象数据不一致性的时间维度统一方法,为解决气象序列数据不一致性问题提供了可能。为了实现上述技术目的,本专利技术采用如下的技术方案:一种基于大数据的气象数据不一致性的时间维度统一方法,包括以下步骤:步骤1:选择气象序列数据并对数据进行标准化处理,生成标准化样本;步骤2:对步骤1得到的标准化样本,选择若干个站点数据,同一时间的数据作为一条记录,按照可重复抽样原则,生成气象序列数据自动样本集;步骤3:根据步骤2所得到的气象序列数据自动样本集,针对每一个样本集,按照一致性气象属性进行分类,生成若干树分类器,建立随机森林;步骤4:建成随机森林后,对每一组样本集的随机森林数据,按照附近站点一致性数据及冲突站点的部分一致性气象数据对不一致性数据进行预测,得到预测结果;步骤5:根据步骤4的预测结果与冲突值之间的加权距离,选择最小的距离值作为最终选择的值。所述步骤1中,气象序列数据包括风向、风速、温度、湿度、气压、雨量、光照度、土壤温度、土壤湿度、露点、太阳辐射量、太阳紫外线。所述步骤1中,对收集的数据,先求出每个气象属性的均值及方差,然后采用如下公式对数据进行标准化处理:其中,m表示第m个属性,n表示第n个气象站点,t表示第t个时刻,为属性数据,为属性数据的平均值,为属性数据方差。所述步骤1中气象数据标准化方法,使所有属性数据的值在0-1范围之内。所述步骤2中,生成气象序列数据自动样本集是从原始的样本容量为M的训练样本集合中随机抽取N个样本,一个样本为步骤1中的一条气象数据记录,生成新的训练样本集,抽样方法为有放回抽样。所述步骤3是针对步骤2得到的每一个样本集,根据站点及气象属性不同采用不同的分类方法,建立不同的树分类器;其采用每次随机若干站点数,随机若干个气象属性的方法,对步骤2中生成的样本集进行分类,形成多个分类器。步骤5中,根据预测的数据与不一致数据,按照以下公式计算标准化距离最小的记录值,为最后选择的值,其中,i表示站点,m标志第m个属性,Bim表示对应属性数据的值,Ai表示对站点i的某一气象属性预测,N代表总的站点数量。本专利技术的有益效果是:第一、数据标准化方法,使气象属性具有统一的范围,有利于进一步利用;第二、将站点的一致性数据与冲突数据结合起来,用来预测气象序列数据;第三、统一的气象数据,为气象模式的利用提供了数据基础;第四、解决冲突的方法也可用来对气象属性预测(补气象属性数据),对预测提供了一种新的方法。附图说明图1表示基于时间的站点选择方法坐标图;其中,x轴表示地理空间,y轴表示时间;图2为本专利技术生成气象序列数据自动样本集的流程图;图3为生成气象站点气象序列数据随机森林的逻辑图;图4为按一致气象属性根据随机森林进行分类预测的流程图;图5为本专利技术具体实施例的流程图;图6为本专利技术方法的流程图。具体实施方式时间分类器是采用冲突站点部分一致性数据(摘要图中黑色点的气象数据),及附近站点一致性数据(摘要附图中T-1,T,T+1时刻的矩形内数据),进行预测,其核心方法是随机森林算法:1.选择气象序列数据并对数据进行标准化处理选择矩形内所有站点不同时刻的数据作为分类的基础数据,其选择原则是尽量多的数据一致性站点(一个不一致性数据站点,其他都是一致性数据站点),并将一个时间所有备选点的数据看作一条记录,对气象属性数据进行标准化处理。在对数据处理前,需要对气象站站点数据进行标准化。气象序列数据包括风向、风速、温度、湿度、气压、雨量、光照度、土壤温度、土壤湿度、露点、太阳辐射量、太阳紫外线等。假设t时总共有N条气象数据记录Rsett,每条记录Rn,t有M个属性则:Rsett={Rn,t|(1≤n≤N)}(1)首先,我们对属性数据进行标准化为假设其平均值为方差为对Rn,t采用以上方法实现标准化后,记作Rn,t′。这里,尽量选择一致性数据,但是极少量的不一致性数据是允许的,并不影响相关结果。2.生成气象序列数据自动样本集将每个时刻附近站点的数据看作一条记录(即一个时间所有备选点的数据看作一条记录:):NRn={Rn,t′|1≤t≤T,1≤n≤N}其中,Rn,t′代表站点n的所有时刻的标准化后的记录,t代表具体记录时间,T表示总的记录时间序列数量;N代表总的记录数。其采用自助法(bootstrap)生成,自助法是从原始的样本容量为N的训练样本集合NRn中随机抽取L(L<N)个样本(一个样本为步骤一中的一条记录)生成新的训练样本集,抽样方法为有放回抽样。按照这种方法,重复生成多个样本集。总的样本集数量为I。其具体过程如图1所示;图中分别描述了T-1,T,T+1时刻不同的气象要素采样点。灰色采样点表示已经获得正确数据(数据一致)的采样点,黑色采样点表示需要预测的数据点。其中方框内的采样点,表示被选择用来预测的采样点(气象站点)。3.设计气象序列数据树分类器针对步骤2中的每一个样本集,采用不同的分类方法(根据站点及气象属性),建立不同的树分类器。其采用每次随机若干(模拟中采用一半站点数)站点数,随机若干个(不选地理位置信息情况下,总的属性数量的一半)气象属性(进行分类)的方法,对步骤中生成的样本集进行分类,形成多个分类器,完成分类器的设计工作。其具体过程如图2所示:生长单棵分类树的原则是递归分区,我们采用二叉树的方法建立,即树中每个节点最多有两个分支节点。分类树按照不纯度最小的原则,首先找到一个特征(根据气象属性分类:风向、风速、温度、湿度、气压、雨量、光照度、土壤温度、土壤湿度、露点、太阳辐射量、太阳紫外线等)把全部训练样本分成两组(可以采用标准化后气象数据0.5划分为两个分支),然后按照同样的规则对节点处的样本进行再次分类(根据上次没有采用的气象属性)。在二叉树中,根节点包含全部训练数据,按照分支生成规则分裂为左孩子节点和右孩子节点,它们分别包含训练数据的一个子集,孩子节点可以继续分裂。每次分裂根据不同的气象属性。这样依次进行,本文档来自技高网...

【技术保护点】
1.一种基于大数据的气象数据不一致性的时间维度统一方法,其特征在于,包括以下步骤:步骤1:选择气象序列数据并对数据进行标准化处理,生成标准化样本;步骤2:对步骤1得到的标准化样本,选择若干个站点数据,同一时间的数据作为一条记录,按照可重复抽样原则,生成气象序列数据自动样本集;步骤3:根据步骤2所得到的气象序列数据自动样本集,针对每一个样本集,按照一致性气象属性进行分类,生成若干树分类器,建立随机森林;步骤4:建成随机森林后,对每一组样本集的随机森林数据,按照附近站点一致性数据及冲突站点的部分一致性气象数据对不一致性数据进行预测,得到预测结果;步骤5:根据步骤4的预测结果与冲突值之间的加权距离,选择最小的距离值作为最终选择的值。

【技术特征摘要】
1.一种基于大数据的气象数据不一致性的时间维度统一方法,其特征在于,包括以下步骤:步骤1:选择气象序列数据并对数据进行标准化处理,生成标准化样本;步骤2:对步骤1得到的标准化样本,选择若干个站点数据,同一时间的数据作为一条记录,按照可重复抽样原则,生成气象序列数据自动样本集;步骤3:根据步骤2所得到的气象序列数据自动样本集,针对每一个样本集,按照一致性气象属性进行分类,生成若干树分类器,建立随机森林;步骤4:建成随机森林后,对每一组样本集的随机森林数据,按照附近站点一致性数据及冲突站点的部分一致性气象数据对不一致性数据进行预测,得到预测结果;步骤5:根据步骤4的预测结果与冲突值之间的加权距离,选择最小的距离值作为最终选择的值。2.根据权利要求1所述的基于大数据的气象数据不一致性的时间维度统一方法,其特征在于,所述步骤1中,气象序列数据包括风向、风速、温度、湿度、气压、雨量、光照度、土壤温度、土壤湿度、露点、太阳辐射量、太阳紫外线。3.根据权利要求1所述的基于大数据的气象数据不一致性的时间维度统一方法,其特征在于,所述步骤1中,对收集的数据,先求出每个气象属性的均值及方差,然后采用如下公式对数据进行标准化处理:其中,m表示第m个属性,n表示第n个气象站...

【专利技术属性】
技术研发人员:温娜郝永生
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1