一种基于大数据的气象数据不一致性的时间维度统一方法技术

技术编号：20160349 阅读：24 留言：0更新日期：2019-01-19 00:13

本发明专利技术公开了基于大数据的气象数据不一致性的时间维度统一方法，包括以下步骤：步骤1：对收集的数据，先求出每个气象属性的均值及方差，对每一个气象属性进行标准化；步骤2：对标准化后的样本，选择若干个站点数据，同一时间的数据作为一条记录，按照可重复抽样原则，生成样本集；步骤3：对每一个样本集，按照一致性气象属性，进行分类，得到若干分类器，生成随机森林；步骤4：根据生成的随机森林，按照一致性气象属性，逐步分类，根据分类器，预测不一致数据；步骤5：根据预测的数据与不一致数据，计算标准化距离最小的记录值，为最后选择的值。本发明专利技术主要从时间维度，解决气象序列数据不一致性问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的气象数据不一致性的时间维度统一方法
本专利技术涉及气象序列数据领域。主要针对气象数据不一致性问题，提出时间维度解决方法。
技术介绍
气象序列数据不一致性问题主要原因有两个：由于管理等问题导致的不同数据在各个不同数据库之间的数据不一致性问题；由于观测站点变迁及设备更新导致的数据集在时间序列上存在阶段性系统偏差问题。数据是信息的载体之一。做为社会公益部门的、以信息服务为基本业务特征的气象部门，从诞生之日起便与数据有着生死与共的紧密关系，没有数据，气象工作的一切便无从谈起。气象部门的各种业务人员，每日在各自的岗位上的所说和所做，无不与数据相关。气象部门离不开数据，数据是维系气象部门生命的血液。气象数据尤其是气象序列数据不一致性问题，是进行气象计算，气象业务的基础。温华洋从数据“热备份”角度提出了基于空间一致性的主备法，在此基础上进一步从统计学基本原理以及保证数据连续角度提出了基于空间一致性的差值订正合成法两种数据处理算法(温华洋，徐光清，华连生，等.“双套站”数据处理方法探索[C]//苏皖两省大气探测、环境遥感与电子技术学术交流研讨会.2011.)。随着大数据时代的来临，基于大数据的分析方法，为解决气象序列数据不一致性问题提供了可能。
技术实现思路
针对上述技术问题，本专利技术提供一种基于大数据的气象数据不一致性的时间维度统一方法，为解决气象序列数据不一致性问题提供了可能。为了实现上述技术目的，本专利技术采用如下的技术方案：一种基于大数据的气象数据不一致性的时间维度统一方法，包括以下步骤：步骤1：选择气象序列数据并对数据进行标准化处理，生成标准化样本...

【技术保护点】
1.一种基于大数据的气象数据不一致性的时间维度统一方法，其特征在于，包括以下步骤：步骤1：选择气象序列数据并对数据进行标准化处理，生成标准化样本；步骤2：对步骤1得到的标准化样本，选择若干个站点数据，同一时间的数据作为一条记录，按照可重复抽样原则，生成气象序列数据自动样本集；步骤3：根据步骤2所得到的气象序列数据自动样本集，针对每一个样本集，按照一致性气象属性进行分类，生成若干树分类器，建立随机森林；步骤4：建成随机森林后，对每一组样本集的随机森林数据，按照附近站点一致性数据及冲突站点的部分一致性气象数据对不一致性数据进行预测，得到预测结果；步骤5：根据步骤4的预测结果与冲突值之间的加权距离，选择最小的距离值作为最终选择的值。

【技术特征摘要】
1.一种基于大数据的气象数据不一致性的时间维度统一方法，其特征在于，包括以下步骤：步骤1：选择气象序列数据并对数据进行标准化处理，生成标准化样本；步骤2：对步骤1得到的标准化样本，选择若干个站点数据，同一时间的数据作为一条记录，按照可重复抽样原则，生成气象序列数据自动样本集；步骤3：根据步骤2所得到的气象序列数据自动样本集，针对每一个样本集，按照一致性气象属性进行分类，生成若干树分类器，建立随机森林；步骤4：建成随机森林后，对每一组样本集的随机森林数据，按照附近站点一致性数据及冲突站点的部分一致性气象数据对不一致性数据进行预测，得到预测结果；步骤5：根据步骤4的预测结果与冲突值之间的加权距离，选择最小的距离值作为最终选择的值。2.根据权利要求1所述的基于大数据的气象数据不一致性的时间维度统一方法，其特征在于，所述步骤1中，气象序列数据包括风向、风速、温度、湿度、气压、雨量、光照度、土壤温度、土壤湿度、露点、太阳辐射量、太阳紫外线。3.根据权利要求1所述的基于大数据的气象数据不一致性的时间维度统一方法，其特征在于，所述步骤1中，对收集的数据，先求出每个气象属性的均值及方差，然后采用如下公式对数据进行标准化处理：其中，m表示第m个属性，n表示第n个气象站...

【专利技术属性】
技术研发人员：温娜，郝永生，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人