当前位置: 首页 > 专利查询>浙江大学专利>正文

基于概率误差补偿的全球表层海水pH反演方法及系统技术方案

技术编号:37665672 阅读:12 留言:0更新日期:2023-05-26 04:23
本发明专利技术公开了一种基于概率误差补偿的全球表层海水pH反演方法及系统,属于机器学习和数据预测领域。本发明专利技术利用经过训练的第一机器学习模型,基于海表温度、海表盐度、点位坐标和监测时间获得不同数据点的总碱度后将其转换为pH估计值,再通过计算概率分布补偿因子和时空分布补偿因子,利用pH实测值对pH估计值进行误差补偿,最后利用误差补偿后的pH估计值作为训练样本的标签,对第二机器学习模型进行训练得到pH反演模型,用于反演全球海洋表层高空间分辨率pH分布。本发明专利技术可解决当前海洋pH实测样本时空分布稀疏、反演pH产品空间分辨率较低等问题,利用pH反演模型能够构建长时序高分辨率全球海表pH产品。全球海表pH产品。全球海表pH产品。

【技术实现步骤摘要】
基于概率误差补偿的全球表层海水pH反演方法及系统


[0001]本专利技术属于机器学习和数据预测领域,具体涉及一种基于概率误差补偿和机器学习模型预测表层海水pH的方法。

技术介绍

[0002]海洋酸化(Ocean Acidification)是指海水吸收了人为产生的二氧化碳,破坏了海洋中碳酸盐循环的化学平衡,导致海水的pH和碳酸钙饱和度下降的现象,也被誉为全球变暖的罪恶孪生兄弟。海洋酸化对海洋生态平衡有巨大的影响,表层海水直接响应大气CO2浓度变化,使海洋钙化生物更难形成生物性碳酸钙,从而影响海洋生物的生长、代谢和繁殖进程,进而破坏海洋生态平衡。
[0003]由于科学界对海洋酸化的发现较晚,海洋常规的观测项目中不包括pH值,因此长时间大范围的pH的数据生产进度较为落后。虽然模式和传统经验公式可以在一定程度上推演全球海表pH分布和变化趋势,但区域性差异导致不同海域所需要的先验知识大相径庭,很难归纳出一个符合全球尺度的统一规律,模式对于全球表层海水pH的拟合能力有限。
[0004]现有技术中,已使用多种模式或机器学习方法反演全球以及区域范围内的表层海水pH分布。但是,当前海洋酸化研究中的pH实测样本时间跨度短、空间分布稀疏且不均匀,这导致机器学习模型难以有效训练。因此,仍然缺乏针对全球尺度高精度pH重构的有效方法,给pH时空特征分析带来较大的困难。
[0005]因此,如何克服pH实测数据稀缺所导致的机器学习模型难以准确反演全球表层海水pH的缺陷,是目前亟待解决的技术问题。

技术实现思路
/>[0006]本专利技术的目的是克服现有的pH实测数据稀缺性导致的机器学习模型无法准确反演全球表层海水pH的问题,并提供了一种基于概率误差补偿的全球表层海水 pH 反演方法及系统。
[0007]为实现本专利技术目的,本专利技术具体提供的技术方案如下:
[0008]第一方面,本专利技术提供了一种基于概率误差补偿的全球表层海水pH反演方法,其包括:
[0009]S1、根据全球范围内不同温盐实测点位的海表温度、海表盐度和二氧化碳逸度实测数据构建第一数据点集合,其中每个第一数据点包括海表温度、海表盐度、点位坐标和监测时间信息;
[0010]S2、将第一数据点集合中的各第一数据点输入预先经过训练的第一机器学习模型中,预测得到各第一数据点的总碱度,再根据各第一数据点的点位坐标和监测时间对应的二氧化碳逸度计算各第一数据点的pH估计值,并构建第二数据点集合,其中每个第二数据点包括pH估计值、点位坐标和监测时间信息;
[0011]S3、根据全球范围内不同pH实测点位的表层海水pH实测数据构建第三数据点集
合,其中每个第三数据点包括pH实测值、点位坐标和监测时间信息;
[0012]S4、分别以第二数据点集合中的每个第二数据点为中心,按照预设的时空搜索范围对第三数据点集合和第二数据点集合分别进行时空搜索,基于搜索到的两个样本集合计算用于消除概率分布差异和时空分布差异的补偿权重,从而利用搜索到的所有第三数据点的pH实测值对当前第二数据点的pH估计值进行加权误差补偿,将第二数据点集合转换为第四数据点集合;
[0013]S5、将全球范围内与表层海水pH相关的遥感数据和再分析数据,与第四数据点集合中的各第四数据点进行时空匹配,以第四数据点中的pH估计值作为样本标签,以时空匹配得到的遥感数据特征指标、再分析数据理化指标、点位坐标和监测时间作为训练样本,构建带标签的训练样本集并对第二机器学习模型进行训练,得到pH反演模型;
[0014]S6、根据需反演的目标时刻,利用pH反演模型得到全球范围内每个空间位置的表层海水pH估计值,从而生成目标时刻对应的全球表层海水pH分布。
[0015]作为上述第一方面的优选,所述第一机器学习模型采用支持向量机、随机森林模型或BP神经网络。
[0016]作为上述第一方面的优选,所述S4中,对每个第二数据点进行误差补偿的具体做法为:
[0017]通过所述时空搜索,将第三数据点集合和第二数据点集合中位于所述时空搜索范围内的数据点分别构建为第一补偿样本集合和第二补偿样本集合,若第一补偿样本集合中的样本量超过预设的最小样本数量,则再根据两个补偿样本集合计算每个第三数据点对应的概率分布补偿因子和时空分布补偿因子,最后以两个补偿因子的乘积作为权重,将第一补偿样本集合中所有第三数据点的pH实测值与第二数据点的pH估计值的偏差加权叠加到第二数据点的pH估计值上,实现加权误差补偿;所述概率分布补偿因子为第一补偿样本集合的分位函数和第二补偿样本集合的累积分布函数的乘积,所述时空分布补偿因子为第一补偿样本集合中的第三数据点相对于当前第二数据点的时空距离权重。
[0018]作为上述第一方面的优选,每个第三数据点的时空距离权重为该第三数据点的空间距离权重和时间距离权重的加权和;且计算时空距离权重时,需先计算该第三数据点相对于当前第二数据点的空间距离值和时间距离值,所述空间距离权重为预设的最大空间搜索半径和所述空间距离值的平方差与平方和之比,所述时间距离权重为预设的最大时间搜索半径和所述时间距离值的平方差与平方和之比。
[0019]作为上述第一方面的优选,所述预设的最大空间搜索半径为450~550 km;所述预设的最大时间搜索半径为1.5~2.5个月,所述预设的最小样本数量为18~22。
[0020]作为上述第一方面的优选,所述第二机器学习模型采用LightGBM模型。
[0021]作为上述第一方面的优选,所述遥感数据特征指标为412~678nm波段的遥感反射率、443nm波长的后向散射系数、颗粒有机碳、颗粒无机碳、漫射衰减系数和叶绿素a浓度。
[0022]作为上述第一方面的优选,所述再分析数据理化指标为海平面十米风速、海表温度、海表盐度、海平面气压、混合层深度和海平面高度。
[0023]作为上述第一方面的优选,输入第一机器学习模型和第二机器学习模型的点位坐标包括点位经纬度和点位经纬度对应的球面坐标,输入第一机器学习模型和第二机器学习模型的监测时间包括年月日信息。
[0024]第二方面,本专利技术提供了一种基于概率误差补偿的全球表层海水pH反演系统,其包括:
[0025]第一数据点集合构建模块,用于根据全球范围内不同温盐实测点位的海表温度、海表盐度和二氧化碳逸度实测数据构建第一数据点集合,其中每个第一数据点包括海表温度、海表盐度、点位坐标和监测时间信息;
[0026]第二数据点集合构建模块,用于将第一数据点集合中的各第一数据点输入预先经过训练的第一机器学习模型中,预测得到各第一数据点的总碱度,再根据各第一数据点的点位坐标和监测时间对应的二氧化碳逸度计算各第一数据点的pH估计值,并构建第二数据点集合,其中每个第二数据点包括pH估计值、点位坐标和监测时间信息;
[0027]第三数据点集合构建模块,用于根据全球范围内不同pH实测点位的表层海水pH实测数据构建第三数据点集合,其中每个第三数据点包括pH实测值、点位坐标和监测时本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于概率误差补偿的全球表层海水pH反演方法,其特征在于,包括:S1、根据全球范围内不同温盐实测点位的海表温度、海表盐度和二氧化碳逸度实测数据构建第一数据点集合,其中每个第一数据点包括海表温度、海表盐度、点位坐标和监测时间信息;S2、将第一数据点集合中的各第一数据点输入预先经过训练的第一机器学习模型中,预测得到各第一数据点的总碱度,再根据各第一数据点的点位坐标和监测时间对应的二氧化碳逸度计算各第一数据点的pH估计值,并构建第二数据点集合,其中每个第二数据点包括pH估计值、点位坐标和监测时间信息;S3、根据全球范围内不同pH实测点位的表层海水pH实测数据构建第三数据点集合,其中每个第三数据点包括pH实测值、点位坐标和监测时间信息;S4、分别以第二数据点集合中的每个第二数据点为中心,按照预设的时空搜索范围对第三数据点集合和第二数据点集合分别进行时空搜索,基于搜索到的两个样本集合计算用于消除概率分布差异和时空分布差异的补偿权重,从而利用搜索到的所有第三数据点的pH实测值对当前第二数据点的pH估计值进行加权误差补偿,将第二数据点集合转换为第四数据点集合;S5、将全球范围内与表层海水pH相关的遥感数据和再分析数据,与第四数据点集合中的各第四数据点进行时空匹配,以第四数据点中的pH估计值作为样本标签,以时空匹配得到的遥感数据特征指标、再分析数据理化指标、点位坐标和监测时间作为训练样本,构建带标签的训练样本集并对第二机器学习模型进行训练,得到pH反演模型;S6、根据需反演的目标时刻,利用pH反演模型得到全球范围内每个空间位置的表层海水pH估计值,从而生成目标时刻对应的全球表层海水pH分布。2.如权利要求1所述的基于概率误差补偿的全球表层海水pH反演方法,其特征在于,所述第一机器学习模型采用支持向量机、随机森林模型或BP神经网络。3.如权利要求1所述的基于概率误差补偿的全球表层海水pH反演方法,其特征在于,所述S4中,对每个第二数据点进行误差补偿的具体做法为:通过所述时空搜索,将第三数据点集合和第二数据点集合中位于所述时空搜索范围内的数据点分别构建为第一补偿样本集合和第二补偿样本集合,若第一补偿样本集合中的样本量超过预设的最小样本数量,则再根据两个补偿样本集合计算每个第三数据点对应的概率分布补偿因子和时空分布补偿因子,最后以两个补偿因子的乘积作为权重,将第一补偿样本集合中所有第三数据点的pH实测值与第二数据点的pH估计值的偏差加权叠加到第二数据点的pH估计值上,实现加权误差补偿;所述概率分布补偿因子为第一补偿样本集合的分位函数和第二补偿样本集合的累积分布函数的乘积,所述时空分布补偿因子为第一补偿样本集合中的第三数据点相对于当前第二数据点的时空距离权重。4.如权利要求3所述的基于概率误差补偿的全球表层海水pH反演方法,其特征在于,每个第三数据点的时空距离权重为该第三数据点的空间距离权重和时间距离权重的加权和;且计算时空距离权重时,需先计算该第三数据点相对于当前第二数据点的空间距离值和时间距离值,所述空间距离权重为预设的最大空间搜索半径和所述空间距离值的平方差与平方和之比,...

【专利技术属性】
技术研发人员:杜震洪赵佳晖吴森森刘仁义
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1