一种改进随机森林气温数据质量控制方法技术

技术编号:14836527 阅读:193 留言:0更新日期:2017-03-17 04:02
本发明专利技术公开了一种改进随机森林气温数据质量控制方法,将经过粒子群算法优化后的随机森林算法用于气象观测站进行气象要素质量控制。该方法首先对一定范围内的地面气象观测数据进行采集,然后对采集的数据做基本质量控制后,再利用粒子群算法寻找随机森林回归模型的最优mtry值和ntree值参数,使用改进随机森林方法按时间和空间序列对数据进行训练,得到一个基于改进随机森林的质量控制模型,并利用测试集进行回归预测,最后与目标站实际观测数据进行对比,观察模型识别观测数据中错误数据的能力。该方法有效的利用了我国多年积累的宝贵气象数据资料,在质量控制方面比传统方法更加高效、准确度高、适应性强,提高了气象观测站气象数据的质量。

【技术实现步骤摘要】

本专利技术涉及地面观测站采集数据的质量控制领域,特别是针对温度数据的质量控制方法。
技术介绍
中国自1951年以来就有近1800个气象站,气象数据的积累丰富,然而这些气象数据中可能存在一些观测、录入和传输等错误,这些错误降低了气象站观测数据的质量,对气象的研究产生了阻力,因此对气象数据的质量控制成为了气象数据应用中不可或缺的环节。地面气象站观测数据质量控制一般分为两类,一类是单站质量控制方法,主要包括极值检查、气候极值检查、内部一致性检查、时间一致性检查;另一类是多站联网质量控制方法,目前国内外已经提出了很多质量控制的方法,例如数值预报模式插值方法、反距离加权发和空间回归检测方法等等。
技术实现思路
本专利技术的目的在于克服以上技术不足之处,针对多站质量控制的不足提出一种改进随机森林气温数据质量控制方法,解决了目前多站联网质量控制方法不稳定、准确度不高的问题,具体由以下的方案实现:所述地面气象观测站观测的气温数据质量控制方法,包括以下步骤:步骤1.采集采样时间T内的目标地面气象观测站温度数据X0(t),t=1,2,3,…,T,其中t为采样时间;步骤2.采集采样时间T内的邻近地面气象观测站温度数据Xi(t),i=1,2,3,…,n,其中n为邻近站的个数;步骤3.对采集到的数据进行基本质量控制,得到新的数据集x0(t)和xi(t),将样本按时间序列以9:1的比例分为训练集和测试集;步骤4.使用随机森林方法对训练集数据进行建模,利用Bagging方法进行采样,样本数足够大时约有37%的数据没有抽取到,称为袋外数据(OOB),利用袋外误差(OOBerror)测试模型的泛化能力,假设袋外数据总数为a,用这a个数据作为输入,带入分类器得到分类结果,与正确的分类情况进行比较统计错误数据大小为b,则袋外误差为OOBerror=b/a,不同的参数值mtry和ntree会使模型得到不同的袋外误差,所以需要寻找最优参数值,利用粒子群算法对随机森林中的参数值mtry和ntree进行寻优,利用最优mtry和ntree值建立模型;步骤5:使用随机森林方法对训练集数据进行建模,回归树节点分裂参考的随机特征变量决定模型的好坏,随机特征变量的数量即为mtry值,随机森林中每颗回归树使用最小剩余方差来决定,划分准则是期望划分后的子树方差最小Var=min(PlVar(Yl)+PrVar(Yr))/m,其中Pl为划分到左边的概率,Var(Yl)为左边数值的方差,Pr和Var(Yr)为对应右边的概率与数值方差,m为参与分裂样本数;步骤6.重复步骤4和5k次得到随机森林质量控制模型,k的大小即是树的数量ntree,利用粒子群算法寻找袋外误差最小的k值;步骤7.将测试集中的邻近站点数据作为样本集,利用步骤6建立的随机森林模型进行回归预测,得到目标站的预测值;步骤8.将预测值与实际观测值进行比较,通过均方根误差和平均绝对误差评价模型,其中yobs为目标站实际观测值,yest是模型预测值。其中,步骤3中所述基本质量控制方法包括格式检查、极值检查、气候极值检查、内部一致性检查、时间一致性检查、空间一致性检查。其中,步骤4中的粒子群算法寻优过程为和其中q维粒子表示为xi=(xi1,xi2,L,xiq),每个粒子对应的速度可以表示为vi=(vi1,vi2,L,viq),每个粒子在搜索时考虑历史最优值pi和全部粒子搜索到的最优值pg,w是惯性权重,c1是粒子跟踪自己历史最优值权重系数,c2是粒子跟踪群里最优值的权重系数,ξ、η是区间[0,1]内均匀分布的随机数,r是约束因子。其中,步骤8中所述检错方法公式为:|yobs-yest|≤f·δ,f是质量控制参数设置为3,δ是目标站观测值与预测值之间的标准误差,如果满足公式的条件,就判断该数值正确,如果不满足公式的条件,则将该数据记为存疑数据,通过这样的方法来实现对数据的质量控制。有益效果本专利技术的一种改进随机森林气温数据质量控制方法,通过周围邻近站点的气温观测数据,利用优化后的随机森林方法构建基于邻近站点气温观测数据的气温数据质量控制模型,提出了一种新的多站联网质量控制方法,模型搭建速度快,泛化能力强,能够有效的提高地面观测数据的准确性。附图说明图1是本专利技术方法的流程图;图2是本专利技术方法OOB误差与mtry值与ntree值之间的关系图;图3是本专利技术方法与反距离加权和空间回归检验方法的MAE、RMSE效果对比图。图4是本专利技术方法与反距离加权和空间回归检验方法月02:00时均温实际观测值与预测值对比图。具体实施方式下面结合附图就实施例对本专利技术进行进一步说明。本实施例的改进随机森林气温数据质量控制方法,如图1所示将甘肃站及周围的83个站点2005年到2014年逐日02:00时气温数据进行实施例分析,进一步说明本专利技术:步骤1:采集采样时间T内的目标地面气象观测站温度数据X0(t),t=1,2,3,…,T,其中t为采样时间,本实施例中T=3654;步骤2.采集采样时间T内的83个邻近地面气象观测站温度数据Xi(t),i=1,2,3,…,n,其中n为邻近站的个数,在本实施例中n=83;步骤3.对采集到的数据X0(t)和Xi(t)进行基本质量控制,得到新的数据集x0(t)和xi(t),取样本中1-3289行的数据作为训练集,3290-3654行的数据作为测试集;步骤4.使用随机森林方法对训练集数据进行建模,利用Bagging方法进行采样,样本数足够大时约有37%的数据没有抽取到,称为袋外数据(OOB),利用袋外误差(OOBerror)测试模型的泛化能力,假设袋外数据总数为a,用这a个数据作为输入,带入分类器得到分类结果,与正确的分类情况进行比较统计错误数据大小为b,则袋外误差为OOBerror=b/a,不同的参数值mtry会使模型得到不同的袋外误差,所以需要寻找最优参数值,利用粒子群算法对随机森林中的参数值mtry和ntree进行寻优,利用最优mtry和ntree值完成模型的建立,本实施例中mtry=60,ntree=435;步骤5.使用随机森林方法对训练集数据进行建模,回归树节点分裂参考的随机特征变量决定模型的好坏,随机特征变量的数量即为mtry值,随机森林中每颗回归树使用最小剩余方差来决定,划分准则是期望划分后的子树方差最小Var=min(PlVar(Yl)+PrVar(Yr))/m,其中Pl为划分到左边的概率,Var(Yl)为左边数值的方差,Pr和Var(Yr)为对应右边的概率与数值方差,m为参与分裂样本数;步骤6.重复步骤4和5k次得到随机森林质量控制模型,k的大小即是树的数量ntree在实施例中设为435;步骤7.将测试集中的邻近站点数据作为样本集,利用步骤6建立的随机森林模型进行回归预测,得到目标站的预测值;步骤8.将预测值与实际观测值进行比较,通过均方根误差(RMSE)和平均绝对误差(MAE)比较随机森林质量控制效果,在实施例中MAE为0.319,RMSE为0.825。为了分析本方法的优点,将同样的数据应用与反距离加权方法和空间回归检验方法中,并进行对比,如图2所示,本方法得到的平均绝对误差(MAE)和均方根误差(RMSE)明显要优于另外两种方法。本实施例通过周围邻近站点气温观测数据,利用优化后的随机本文档来自技高网...
一种改进随机森林气温数据质量控制方法

【技术保护点】
一种改进随机森林气温数据质量控制方法,其特征在于:包括以下步骤:步骤1.采集采样时间T内的目标地面气象观测站温度数据X0(t),t=1,2,3,…,T,其中t为采样时间;步骤2.采集采样时间T内的邻近地面气象观测站温度数据Xi(t),i=1,2,3,…,n,其中n为邻近站的个数;步骤3.对采集到的数据进行基本质量控制,得到新的数据集x0(t)和xi(t),将样本按时间序列以9:1的比例分为训练集和测试集;步骤4:使用随机森林方法对训练集数据进行建模,利用Bagging方法进行采样,假设袋外数据总数为a,用这a个数据作为输入,带入分类器得到分类结果,与正确的分类情况进行比较统计错误数据大小为b,则袋外误差为OOBerror=b/a,不同的参数值mtry和ntree会使模型得到不同的袋外误差,需要寻找最优参数值,利用粒子群算法对随机森林中的参数值mtry和ntree进行寻优,利用最优mtry和ntree值建立模型;步骤5:使用随机森林方法对训练集数据进行建模,回归树节点分裂参考的随机特征变量决定模型的好坏,随机特征变量的数量即为mtry值,随机森林中每颗回归树使用最小剩余方差来决定,划分准则是期望划分后的子树方差最小Var=min(PlVar(Yl)+PrVar(Yr))/m,其中Pl为划分到左边的概率,Var(Yl)为左边数值的方差,Pr和Var(Yr)为对应右边的概率与数值方差,m为参与分裂样本数;步骤6.重复步骤4和5k次得到随机森林质量控制模型,k的大小即是树的数量ntree,利用粒子群算法寻找袋外误差最小的k值;步骤7.将测试集中的邻近站点数据作为样本集,利用步骤6建立的随机森林模型进行回归预测,得到目标站的预测值;步骤8.将预测值与实际观测值进行比较,通过均方根误差和平均绝对误差评价模型,其中yobs为目标站实际观测值,yest是模型预测值。...

【技术特征摘要】
1.一种改进随机森林气温数据质量控制方法,其特征在于:包括以下步骤:步骤1.采集采样时间T内的目标地面气象观测站温度数据X0(t),t=1,2,3,…,T,其中t为采样时间;步骤2.采集采样时间T内的邻近地面气象观测站温度数据Xi(t),i=1,2,3,…,n,其中n为邻近站的个数;步骤3.对采集到的数据进行基本质量控制,得到新的数据集x0(t)和xi(t),将样本按时间序列以9:1的比例分为训练集和测试集;步骤4:使用随机森林方法对训练集数据进行建模,利用Bagging方法进行采样,假设袋外数据总数为a,用这a个数据作为输入,带入分类器得到分类结果,与正确的分类情况进行比较统计错误数据大小为b,则袋外误差为OOBerror=b/a,不同的参数值mtry和ntree会使模型得到不同的袋外误差,需要寻找最优参数值,利用粒子群算法对随机森林中的参数值mtry和ntree进行寻优,利用最优mtry和ntree值建立模型;步骤5:使用随机森林方法对训练集数据进行建模,回归树节点分裂参考的随机特征变量决定模型的好坏,随机特征变量的数量即为mtry值,随机森林中每颗回归树使用最小剩余方差来决定,划分准则是期望划分后的子树方差最小Var=min(PlVar(Yl)+PrVar(Yr))/m,其中Pl为划分到左边的概率,Var(Yl)为左边数值的方差,Pr和Var(Yr)为对应右边的概率与数值方差,m为参与分裂样本数;步骤6.重复步骤4和5k次得到随...

【专利技术属性】
技术研发人员:叶小岭杨星熊雄姚润进沈云培陈洋
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1