一种多数据源的数据融合方法技术

技术编号:20364370 阅读:25 留言:0更新日期:2019-02-16 17:11
本发明专利技术实施例提出了一种多数据源的数据融合方法,包括:基础数据处理步骤,用于对台站气象数据、CFSR气象数据、Princeton大气驱动数据、遥感数据进行处理以获取处理后的基础数据;数据集建立步骤,用于通过根据处理后的基础数据建立近地面气温场、近地面相对湿度场、近地面风场、近地面气压场、降水场、辐射场。

【技术实现步骤摘要】
一种多数据源的数据融合方法
本专利技术涉及数据处理
,尤其是涉及一种多数据源的数据融合方法,其典型的可用于气象数据的融合。
技术介绍
随着社会的发展,越来越多领域都开始使用数据分析和数据处理技术。在使用海量数据的很多领域,都需要对多个数据源得到的数据进行融合,然后再进行后续的分析和处理。气象数据是一种极其典型的海量数据集,气象数据要综合多种数据源的海量数据,因此必须先对数据进行融合以使这些数据可以统一使用。举例来说,我国所采用的气象数据通常包括:中国大陆地区台站观测资料、CFSR再分析资料、Princeton大气驱动资料、GEWEXSRB下行短波辐射资料。在生成数据集之前需要对海量数据进行融合,但是现有技术中缺少可靠、高效的手段对这些海量数据进行融合,导致最终在生成数据集时存在很多问题。
技术实现思路
针对当前的数据融合技术不够完善的问题,本专利技术实施例提出了一种为了实现上述目的,本专利技术实施例提供了一种多数据源的数据融合方法,包括:基础数据处理步骤,用于对台站气象数据、CFSR气象数据、Princeton大气驱动数据、遥感数据进行处理以获取处理后的基础数据;数据集建立步骤,用于通过根据处理后的基础数据建立近地面气温场、近地面相对湿度场、近地面风场、近地面气压场、降水场、辐射场。进一步的,所述基础数据处理步骤具体包括:台站气象数据处理子步骤,用于获取来自于中国气象局气象信息中心常规气象要素740站的观测数据,其中所述观测数据中包括以下的至少一种观测变量:近地面1.5米气温、气压、相对湿度、近地面10米风速、累积降水和日照时数(用于产生辐射场);并将中国大陆地区分成四个分区;CFSR气象数据再分析子步骤:用于获取NCEPCFSR再分析资料;其中CFSR再分析资料中包括:近地面气温、相对湿度、风速和气压变量的3小时分辨率的数据,以为大气、海洋、陆地和海冰模式提供初始场;Princeton大气驱动数据再分析子步骤:基于NCEP-1再分析资料,再利用月气候资料对NCEP-1再分析资料进行订正,然后进行空间降尺度;其中Princeton大气驱动数据中至少包括:近地面气温、相对湿度、风速、气压和短波辐射数据;遥感数据处理子步骤:用于对CMORPH降水资料进行降维处理,并对GWEXESRB下行短波辐射资料中的地表下行短波辐射资料进行处理。进一步的,所述数据集建立步骤中通过以下方法建立近地面气温场:步骤11、建立趋势面,在每个有观测的时刻,建立如下的趋势面模型,1958:1978:t(x,y)=f(x,y)+β·z(x,y)+ε(x,y)1979-2010:t(x,y)=f(x,y)+β1·z(x,y)+β2·tcfsr(x,y)+ε(x,y)(2-11)式中t代表近地面2米气温,z为高程,tcfsr是CFSR再分析数据在点的线性插值;其中(x,y)是经纬度,{ψr,r=1,2,...,p}是给定的协变量函数(例如高程),βr是回归系数,f是2阶薄板平滑样条函数,ε为误差,其中误差ε是独立同分布的;其中,某一时刻的驱动变量u分解为其中(x,y)是经纬度,{ψr,r=1,2,...,p}是给定的协变量函数,βr是回归系数,f是2阶薄板平滑样条函数;ε为误差,是独立同分布的;公式中的f(x,y)和合称为变量的趋势面;只要样条函数的系数和回归系数确定了,趋势面相对于经纬度的函数关系就确定了;则在任一点的插值只需将该点的经纬度代入趋势面的函数即可获得;在本步骤中驱动变量u为近地面2米气温t;其中2阶薄板平滑样条函数f是针对于在经度{x1,x2,...xn}和纬度{y1,y2,...yn}上的n维观测向量定义的;其表现为和限制条件其中{x1,x2,...xn}和{x1,x2,...xn}是样条系数;d1、d2、d3为一阶系数,ci为二阶系数;由公式(2-1)、公式(2-2)可知,2阶薄板平滑样条函数f的自由度与观测的个数相同;因此在计算样条系数和回归系数时,不但要使趋势面靠近观测,也要使样条尽量平滑以控制趋势面在无观测地区的误差;在实际操作中,这些系数被取为使得以下目标函数的最小的值,其中第一项代表误差的规模,第二项J2(f)代表2阶薄板平滑样条函数f的光滑性;λ是光滑参数,用于平衡误差规模和光滑性;zi为高程;估计样条系数和回归系数的关键技术是对光滑参数λ的估计;因为λ确定后,目标函数(2-2)只是样条系数和回归系数的2次函数,使它在约束条件(2-3)下极小的系数有显示表达;基于最小交叉验证原则对光滑参数λ进行验证:步骤12、对趋势面进行订正,具体包括:用简单克里金方法对趋势面的残差场插值,得到在点处的插值结果为其中,||x,y,xi,yi||表示点(x,y)和(xi,yi)之间的欧氏距离,c是一个单调非负函数的协方差函数。然后将残差场的插值叠加到趋势面后就得到最后的插值场其中协方差函数c的估计采用以下方法:将观测集合按两点间的距离分为若干点对的集合,在每一个集合内计算点对的协方差,以构造一个随距离变化的序列;用一维薄板平滑样条拟合这个序列就可到协方差函数c;步骤13、将得到的近地面气温场与CFSR气象数据、Princeton大气驱动数据、遥感数据进行对比以确定数据的准确性。处理子步骤:用于对CMORPH降水资料进行降维处理,并对GWEXESRB下行短波辐射资料中的地表下行短波辐射资料进行处理。进一步的,所述数据集建立步骤中通过以下方法建立近地面相对湿度场:步骤21、对于相对湿度q,在每个有观测的时刻,建立如下的趋势面模型,1958-1978:q(x,y)=f(x,y)+ε(x,y)1979-2010:q(x,y)=f(x,y)+β1qcfsr(x,y)+ε(x,y)(2-12)其中qcfsr是CFSR再分析数据在点的线性插值,其中2阶薄板平滑样条函数f的计算步骤与步骤11相同;步骤22、对趋势面进行订正,订正方式与与步骤12相同;步骤23、对日尺度插值结果和6小时尺度的插值结果进行时间降尺度,具体包括:在每一日的监测数据中确定有监测数据的时刻,并在每两个相邻的监测数据之间进行插值,插值的为相邻时刻的驱动场的平均值;利用插值后的监测数据对辅助资料进行订正以达到时间降尺度的目的;其中该辅助资料为以下的一种:CFSR再分析资料、Princeton大气驱动资料、GEWEXSRB下行短波辐射资料;其中利用插值后的监测数据对辅助资料进行订正具体包括:对于风速的气象变量,获取其辅助资料,将3小时的辅助资料除以它的日平均再乘以插值的日资料;步骤24、将得到的地面相对湿度场与CFSR气象数据、Princeton大气驱动数据、遥感数据进行对比以确定数据的准确性。进一步的,所述数据集建立步骤中通过以下方法建立近地面风场:步骤31、对于近地面风场w,在每个有观测的时刻,采用如下模型:w(x,y)=f(x,y)+ε(x,y)(2-13)步骤32、对日尺度插值结果和6小时尺度的插值结果进行时间降尺度,具体包括:在每一日的监测数据中确定有监测数据的时刻,并在每两个相邻的监测数据之间进行插值,插值的为相邻时刻的驱动场的平均值;利用插值后的监测数据对辅助资料进行订正以达到时间降尺度的目的;其中该辅助资料为以下的一种:CFSR再分析资料、Prince本文档来自技高网...

【技术保护点】
1.一种多数据源的数据融合方法,其特征在于,包括:基础数据处理步骤,用于对台站气象数据、CFSR气象数据、Princeton大气驱动数据、遥感数据进行处理以获取处理后的基础数据;数据集建立步骤,用于通过根据处理后的基础数据建立近地面气温场、近地面相对湿度场、近地面风场、近地面气压场、降水场、辐射场。

【技术特征摘要】
1.一种多数据源的数据融合方法,其特征在于,包括:基础数据处理步骤,用于对台站气象数据、CFSR气象数据、Princeton大气驱动数据、遥感数据进行处理以获取处理后的基础数据;数据集建立步骤,用于通过根据处理后的基础数据建立近地面气温场、近地面相对湿度场、近地面风场、近地面气压场、降水场、辐射场。2.根据权利要求1所述的多数据源的数据融合方法,其特征在于,所述基础数据处理步骤具体包括:台站气象数据处理子步骤,用于获取来自于中国气象局气象信息中心常规气象要素740站的观测数据,其中所述观测数据中包括以下的至少一种观测变量:近地面1.5米气温、气压、相对湿度、近地面10米风速、累积降水和日照时数;并将中国大陆地区分成四个分区;CFSR气象数据再分析子步骤:用于获取NCEPCFSR再分析资料;其中CFSR再分析资料中包括:近地面气温、相对湿度、风速和气压变量的3小时分辨率的数据,以为大气、海洋、陆地和海冰模式提供初始场;Princeton大气驱动数据再分析子步骤:基于NCEP-1再分析资料,再利用月气候资料对NCEP-1再分析资料进行订正,然后进行空间降尺度;其中Princeton大气驱动数据中至少包括:近地面气温、相对湿度、风速、气压和短波辐射数据;遥感数据处理子步骤:用于对CMORPH降水资料进行降维处理,并对GWEXESRB下行短波辐射资料中的地表下行短波辐射资料进行处理。3.根据权利要求2所述的多数据源的数据融合方法,其特征在于,所述数据集建立步骤中通过以下方法建立近地面气温场:步骤11、建立趋势面,在每个有观测的时刻,建立如下的趋势面模型,1958:1978:t(x,y)=f(x,y)+β·z(x,y)+ε(x,y)1979-2010:t(x,y)=f(x,y)+β1·z(x,y)+β2·tcfsr(x,y)+ε(x,y)(2-11)式中t代表近地面2米气温,z为高程,tcfsr是CFSR再分析数据在点的线性插值;其中(x,y)是经纬度,{ψr,r=1,2,...,p}是给定的协变量函数(例如高程),βr是回归系数,f是2阶薄板平滑样条函数,ε为误差,其中误差ε是独立同分布的;其中,某一时刻的驱动变量u分解为其中(x,y)是经纬度,{ψr,r=1,2,...,p}是给定的协变量函数,βr是回归系数,f是2阶薄板平滑样条函数;ε为误差,是独立同分布的;公式中的f(x,y)和合称为变量的趋势面;只要样条函数的系数和回归系数确定了,趋势面相对于经纬度的函数关系就确定了;则在任一点的插值只需将该点的经纬度代入趋势面的函数即可获得;在本步骤中驱动变量u为近地面2米气温t;其中2阶薄板平滑样条函数f是针对于在经度{x1,x2,...xn}和纬度{y1,y2,...yn}上的n维观测向量定义的;其表现为和限制条件其中{x1,x2,...xn}和{x1,x2,...xn}是样条系数,d1、d2、d3为一阶系数,ci为二阶系数;由公式(2-1)、公式(2-2)可知,2阶薄板平滑样条函数f的自由度与观测的个数相同;因此在计算样条系数和回归系数时,不但要使趋势面靠近观测,也要使样条尽量平滑以控制趋势面在无观测地区的误差;在实际操作中,这些系数被取为使得以下目标函数的最小的值,其中第一项代表误差的规模,第二项J2(f)代表2阶薄板平滑样条函数f的光滑性;λ是光滑参数,用于平衡误差规模和光滑性;zi为高程;δ是偏微分符号;d为微分符号;估计样条系数和回归系数的关键技术是对光滑参数λ的估计;因为λ确定后,目标函数(2-2)只是样条系数和回归系数的2次函数,使它在约束条件(2-3)下极小的系数有显示表达;基于最小交叉验证原则对光滑参数λ进行验证:步骤12、对趋势面进行订正,具体包括:用简单克里金方法对趋势面的残差场插值,得到在点处的插值结果为其中,||x,y,xi,yi||表示点(x,y)和(xi,yi)之间的欧氏距离,c是一个单调非负函数的协方差函数;然后将残差场的插值叠加到趋势面后就得到最后的插值场其中协方差函数c的估计采用以下方法:将观测集合按两点间的距离分为若干点对的集合,在每一个集合内计算点对的协方差,以构造一个随距离变化的序列;用一维薄板平滑样条拟合这个序列就可到协方差函数c;步骤13、将得到的近地面气温场与CFSR气象数据、Princeton大气驱动数据、遥感数据进行对比以确定数据的准确性;处理子步骤:用于对CMORPH降水资料进行降维处理,并对GWEXESRB下行短波辐射资料中的地表下行短波辐射资料进行处理。4.根据权利要求3所述的多数据源的数据融合方法,其特征在于,所述数据集建立步骤中通过以下方法建立近地面相对湿度场:步骤21、对于相对湿度q,在每个有观测的时刻,建立如下的趋势面模型,1958-1978:q(x,y)=f(x,y)+ε(x,y)1979-2010:q(x,y)=f(x,y)+β1qcfsr(x,y)+ε(x,y)(2-12)其中qcfsr是CFSR再分析数据在点的线性插值,其中2阶薄板平滑样条函数f的计算步骤与步骤11相同;步骤22、对趋势面进行订正,订正方式与步骤12相同;步骤23、对日尺度插值结果和6小时尺度的插值结果进行时间降尺度,具体包括:在每一日的监测数据中确定有监测数据的时刻,并在每两个相邻的监测数据之间进行插值,插值的为相邻时刻的驱动场的平均值;利用插值后的监测数据对辅助资料进行订正以达到时间降尺度的目的;其中该辅助资料为以下的一种:CFSR再分析资料、Princeton大气驱动资料、GEWEXSRB下行短波辐射资料;其中利用插值后的监测数据对辅助资料进行订正具体包括:对于风速的气象变量,获取其辅助资料,将3小时的辅助资料除以它的日平均再乘以插...

【专利技术属性】
技术研发人员:谢刚彭岩波韩子叻宋杰邓杰王国强王溥泽
申请(专利权)人:山东省环境规划研究院北京师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1