当前位置: 首页 > 专利查询>浙江大学专利>正文

基于多源数据的高空间分辨率海水二氧化碳分压重构方法技术

技术编号:36786154 阅读:12 留言:0更新日期:2023-03-08 22:28
本发明专利技术公开了一种基于多源数据和机器学习的高空间分辨率海水表层二氧化碳分压月度数据的并行重构方法、装置及介质。该方法针对高空间分辨率下的多源大数据采用了不同的并行策略。首先对时次观测数据进行加权时空平均和格网化,得到月度格网样本集;然后对遥感、模式、再分析等特征数据进行预处理,构建多源特征数据集。利用样本频率构建样本权重模型,建立并优化XGBoost树模型进行特征筛选和特征学习。最后利用训练模型重构海水表层二氧化碳分压格网数据。本发明专利技术方法的优点在于发挥了遥感数据的高空间分辨率优势,深度融合多源数据和现代机器学习方法,并针对不平衡大数据集制定了灵活的并行和学习策略。本发明专利技术对于认识海水表层二氧化碳分压时空分布、变化趋势,了解和发展海洋碳汇具有重要的实际应用价值。发展海洋碳汇具有重要的实际应用价值。发展海洋碳汇具有重要的实际应用价值。

【技术实现步骤摘要】
基于多源数据的高空间分辨率海水二氧化碳分压重构方法


[0001]本专利技术属于海洋遥感领域,具体涉及一种基于多源数据和机器学习的高空间分辨率海水表层二氧化碳分压月度数据的并行重构方法。

技术介绍

[0002]随着化石燃料排放和森林砍伐的加剧,人类活动对碳循环的扰动使得全球气候和生物化学环境受到巨大影响。海洋是自然界中重要的碳汇,对于大气中二氧化碳的吸收能力成为了海洋科学研究的热点。通过气体交换从大气进入海洋的二氧化碳的净通量取决于风速和大气中二氧化碳分压与海水表层二氧化碳分压之差。然而,由于海水表层二氧化碳分压的测量数据大多依赖于船舶和原地测量,受制于航线、航次和位置固定的影响,时空分辨率较低且分布不均匀,表现出弱的时间和空间一致性,使得海洋碳汇的估算结果仍存在很大的不确定性和挑战。随着软硬件的发展和大数据时代的来临,高空间分辨率遥感数据的出现使得对海水表层二氧化碳分压在细尺度下的重构成为了可能,从而实现对海洋碳汇更精确的监测和分析。同时,高时空分辨率使得卫星遥感数据的数据量激增,传统的分析方法很难有效的从中挖掘出与其体量相对应的价值量。相反对于机器学习而言,越多的数据会越可能提升模型的精确性,因此对于大体量数据而言,机器学习是不可或缺的。此外,对于大体量数据需要采取灵活的的并行处理策略以降低时间成本。
[0003]但如何应用机器学习对海洋观测中获取的海水表层二氧化碳分压数据进行并行重构,是目前亟待解决的技术问题。

技术实现思路

[0004]本专利技术的目的是克服现有的不足,并提供了一种基于多源数据和机器学习的高空间分辨率海水表层二氧化碳分压月度数据的并行重构方法。
[0005]为实现上述专利技术目的,本专利技术具体提供的技术方案如下:
[0006]一种基于多源数据的高空间分辨率海水二氧化碳分压重构方法,其步骤如下:
[0007]S1:获取与海水二氧化碳分压相关的再分析和模式数据、遥感数据,对获得的多源特征数据进行预处理,首先将再分析和模式数据上采样至遥感数据的空间分辨率,其次对遥感数据进行缺失值补全,最后加入空间特征和时间特征,并对部分特征进行数值转换使其在空间上连续,从而完成预处理形成特征数据集;在特征数据集的预处理过程中,以月度数据斑块为单位划分并行子任务,并提前剔除无效值以减少数据量,实现不同子任务间的并行处理;
[0008]S2:基于海水表面二氧化碳分压实测观测数据,将所有采集航次采用按航线加权平均的方法进行网格化,且网格精度与遥感数据的空间分辨率相同,从而得到海水表面二氧化碳分压的月度观测样本集,再将月度观测样本集中的样本与特征数据集进行空间匹配得到样本特征集;在月度观测样本集和样本特征集的构建过程中,基于观测时间以月为单位划分并行子任务,实现不同子任务间的并行处理;
[0009]S3:基于时空尺度和统计分析建立样本混合反频率权重用于XGBoost模型训练,并依据预训练模型的特征重要性进行特征数据集中的特征筛选;再根据筛选得到的特征,利用超参搜索和十折交叉验证进一步优化XGBoost模型;
[0010]S4:利用训练后的XGBoost模型,预测重构高空间分辨率下月度海水表层二氧化碳分压分布;且预测过程中以月和经向划分的斑块为单位划分并行子任务,实现不同子任务间的并行处理。
[0011]基于上述技术方案,各步骤优选采用如下具体方式实现。其中各步骤的优选实现方式在没有冲突的情况下均可进行相应组合,不构成限制。
[0012]作为优选,所述步骤S1中通过预处理形成特征数据集的具体方法如下:
[0013]S11:以包含将海表面盐度、叶绿素a、海水混合层深度、干燥大气二氧化碳摩尔分数以及海表面十米风速在内作为特征数据集中的模式和再分析数据,以海表面温度作为特征数据集中的遥感数据,将各种模式和再分析数据上采样至遥感数据空间分辨率并统一空间坐标系,同时统一各特征数据时间分辨率为月,日数据通过计算月平均值进行时间分辨率转换;
[0014]S12:查找海表面温度遥感数据中的缺失值(NaN),利用全覆盖再分析数据的对应值进行补全;
[0015]S13:在特征数据集中添加经纬度作为空间特征,添加月份作为时间特征;并对经度进行三角函数转换,对海水混合层深度和叶绿素浓度a进行对数转换,使两个特征在空间上平滑连续。
[0016]作为优选,所述特征数据集构建过程中,对于月度单时次数据,以平均划分的斑块为划分并行子任务的最小单位进行并行处理,利用进程池并行剔除陆地和其他无效网格,将有效单元由矩阵转换为向量形式并记录各单元在原矩阵中的行、列号。
[0017]作为优选,所述步骤S2的具体方法如下:
[0018]S21:将海水表面二氧化碳分压实测观测数据集按年、月和空间格网三级维度划分为一系列子数据集,其中空间格网的精度与遥感数据相同,海水表面二氧化碳分压实测观测数据集中观测年份为yr、观测月份为mon且位于空间格网中第r行第c列的网格中的数据为子数据集Y
yr,mon,r,c
,针对子数据集Y
yr,mon,r,c
中的共C条航线计算各航次观测样本平均值:
[0019][0020]式中:a表示航线上的观测点总数,y
i
表示航线Y
j
上的第i个观测点;
[0021]S22:对一个子数据集中的所有航次的平均值进行第二次平均,所得平均值为该子数据集所对应的空间格网的样本值:
[0022][0023]海水表面二氧化碳分压实测观测数据集的所有子数据集按月为单位划分子任务后通过并行处理完成S21和S22中的计算,得到网格精度与遥感数据的空间分辨率相同的海
水表面二氧化碳分压的月度观测样本集;
[0024]S23:将月度观测样本集中的数据以月为单位划分子数据集,利用进程池并行处理各子数据集与特征数据集的空间匹配过程,得到样本特征集;所述得到样本特征集中的每一个样本包含多个特征数据和海水表面二氧化碳分压的观测数据,用于训练XGBoost模型。
[0025]作为优选,所述步骤S3的具体方法如下:
[0026]S31:基于时空尺度和统计分析,计算样本在时间、空间和值域三个维度所属区块内样本密度的倒数建立样本混合反频率权重;其中样本混合反频率权重定义为:
[0027][0028]其中,w
space,i
、w
time,i
、w
stat,i
分别表示样本的空间权重、时间权重和统计值权重,δ表示权重缩放系数;
[0029]样本的空间权重计算方法为:将月度观测数据集按年、月及空间格网划分为子数据集Y

yr,mon,r,c
,则Y

yr,mon,r,c
内样本的空间权重由该子数据集样本量决定,计算式为:
[0030][0031]式中:count为计数函数;
[0032]样本的时间权重计算方法为:将月度观测数据集按月及空间格网划本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源数据的高空间分辨率海水二氧化碳分压重构方法,其特征在于,步骤如下:S1:获取与海水二氧化碳分压相关的再分析和模式数据、遥感数据,对获得的多源特征数据进行预处理,首先将再分析和模式数据上采样至遥感数据的空间分辨率,其次对遥感数据进行缺失值补全,最后加入空间特征和时间特征,并对部分特征进行数值转换使其在空间上连续,从而完成预处理形成特征数据集;在特征数据集的预处理过程中,以月度数据斑块为单位划分并行子任务,并提前剔除无效值以减少数据量,实现不同子任务间的并行处理;S2:基于海水表面二氧化碳分压实测观测数据,将所有采集航次采用按航线加权平均的方法进行网格化,且网格精度与遥感数据的空间分辨率相同,从而得到海水表面二氧化碳分压的月度观测样本集,再将月度观测样本集中的样本与特征数据集进行空间匹配得到样本特征集;在月度观测样本集和样本特征集的构建过程中,基于观测时间以月为单位划分并行子任务,实现不同子任务间的并行处理;S3:基于时空尺度和统计分析建立样本混合反频率权重用于XGBoost模型训练,并依据预训练模型的特征重要性进行特征数据集中的特征筛选;再根据筛选得到的特征,利用超参搜索和十折交叉验证进一步优化XGBoost模型;S4:利用训练后的XGBoost模型,预测重构高空间分辨率下月度海水表层二氧化碳分压分布;且预测过程中以月和经向划分的斑块为单位划分并行子任务,实现不同子任务间的并行处理。2.根据权利要求1所述的并行构建多源特征数据集的方法,其特征在于:所述步骤S1中通过预处理形成特征数据集的具体方法如下:S11:以包含将海表面盐度、叶绿素a、海水混合层深度、干燥大气二氧化碳摩尔分数以及海表面十米风速在内作为特征数据集中的模式和再分析数据,以海表面温度作为特征数据集中的遥感数据,将各种模式和再分析数据上采样至遥感数据空间分辨率并统一空间坐标系,同时统一各特征数据时间分辨率为月,日数据通过计算月平均值进行时间分辨率转换;S12:查找海表面温度遥感数据中的缺失值(NaN),利用全覆盖再分析数据的对应值进行补全;S13:在特征数据集中添加经纬度作为空间特征,添加月份作为时间特征;并对经度进行三角函数转换,对海水混合层深度和叶绿素浓度a进行对数转换,使两个特征在空间上平滑连续。3.根据权利要求2所述的并行构建多源特征数据集的方法,其特征在于:所述特征数据集构建过程中,对于月度单时次数据,以平均划分的斑块为划分并行子任务的最小单位进行并行处理,利用进程池并行剔除陆地和其他无效网格,将有效单元由矩阵转换为向量形式并记录各单元在原矩阵中的行、列号。4.根据权利要求2所述的并行构建样本特征集的方法,其特征在于:所述步骤S2的具体方法如下:S21:将海水表面二氧化碳分压实测观测数据集按年、月和空间格网三级维度划分为一系列子数据集,其中空间格网的精度与遥感数据相同,海水表面二氧化碳分压实测观测数
据集中观测年份为yr、观测月份为mon且位于空间格网中第r行第c列的网格中的数据为子数据集Y
yr,mon,r,c
,针对子数据集Y
yr,mon,r,c
中的共C条航线计算各航次观测样本平均值:式中:a表示航线上的观测点总数,y
i
表示航线Y
j
上的第i个观测点;S22:对一个子数据集中的所有航次的平均值进行第二次平均,所得平均值为该子数据集所对应的空间格网的样本值:海水表面二氧化...

【专利技术属性】
技术研发人员:杜震洪王馨仪吴森森陈奕君
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1