当前位置: 首页 > 专利查询>天津大学专利>正文

基于机器学习的密跃层预测方法技术

技术编号:24709512 阅读:77 留言:0更新日期:2020-07-01 00:11
本发明专利技术涉及一种基于机器学习的密跃层预测方法,包括以下步骤:(1)选定数据源,确定密度跃层,将数据格式化存储;确定训练集的选取比例,利用三次样条插值平滑温度、盐度数据:训练集的选取比例确定为0.45,采用三次样条曲线插值方法对盐度和温度数据进行插值平滑预处理,从而获得均匀分布的盐度、温度数据;利用特征缩放加快梯度收敛;优化SVM算法参数及进行特征排序。

【技术实现步骤摘要】
基于机器学习的密跃层预测方法
本专利技术属海水密度跃层检测领域,涉及基于机器学习的密跃层预测方法。
技术介绍
随着海洋数据呈现爆炸式增长,利用海洋观测资料对海洋密度跃层进行数据分析对军事领域具有重要意义。但是,由于自然环境因素,很多时候得到的海洋水文数据并不完整。在此情况下,如何通过部分数据预测待分析的海洋水文数据成为了海洋科学研究的热点。
技术实现思路
本专利技术提出一种基于机器学习的密跃层预测方法。技术方案如下:一种基于机器学习的密跃层预测方法,方法包括以下步骤:(1)选定数据源,确定密度跃层,将数据格式化存储:选取包括海洋温度、盐度数据的海洋数据集,从中选取0-500m深度范围内的数据作为训练集与测试集,根据海洋密度算法计算所需要的密度数据,将密度梯度定义为G,根据G与密度D、深度d以及层数n之间的关系求出密度梯度G,设立一个标记号flag,用来记录在某层密度是否有较大变化,如果有则将该列设为1,从而根据设立的标记号flag确定密度跃层,形成包含深度,压力,温度,盐度,密度,经度,纬度,日期,密度梯度G,标记号flag的数据集进行存储;(2)确定训练集的选取比例,利用三次样条插值平滑温度、盐度数据:训练集的选取比例确定为0.45,采用三次样条曲线插值方法对盐度和温度数据进行插值平滑预处理,从而获得均匀分布的盐度、温度数据;(3)利用特征缩放加快梯度收敛;(4)优化SVM算法参数及进行特征排序:利用基于变步长网格搜索算法来确定SVM模型的超参数C和gamma,在作为第一次搜索的粗搜步骤下得到的最优解满足局部最优解的超参数C和gamma;从第二次搜索开始,将寻优起始点设定为上一次得到的最优解处,步长设定为上一次步长的百分之20。如此往复,直至找到满足全局最优解的超参数C和gamma;采取高斯核RBF作为核函数,针对每个单独的特征和响应变量结合得到的超参数建立预测模型,分别让每个特征与响应变量做模型分析并得到误差率,最后对每个特征的分数进行排序,从而能够的到对密度跃层影响最大的特征数据。对比传统的对于密度跃层的选择,利用机器学习的方法可以使用较少的已知数据对密度跃层进行预测。本专利技术所提出的基于机器学习的密跃层预测方法,结合机器学习的多项式回归模型及Kernel-SVM算法对海洋水文数据进行训练并预测,得到了良好的精准度。附图说明图1本专利技术整体框架图图2多项式回归曲线具体实施方式本专利技术提出一种基于机器学习的密跃层预测方法,其整体框架如图1所示。具体方法包括以下步骤:第一步:选择Argo数据集,根据海洋密度算法计算海洋密度。本专利技术采用中国Argo实时数据中心发布的2004-2010年范围内的Argo3d网格数据集,根据海洋密度的分布特征,选取0-500m深度范围内的数据作为训练集与测试集(因为海洋密度在深度大于500米以后趋于稳定,密度梯度变化小)。根据海洋密度算法计算海洋密度(ρ,kg/m3),计算方式如公式(1)其中,ρ表示海洋密度,S表示盐度,t表示温度,P表示压力,ρ=(S,t,0)表示在标准大气压P=0下的海水密度。K(S,t,P)表示正割体积模量。ρ(S,t,0)=ρw+At×S+Bt×S32+C×S2ρw=999.842594+6.793952×10-2t-9.095290×10-3t2+1.001685×10-4t3-1.120083×10-6t4+6.536332×10-9t5At=8.24493×10-1-4.0899×10-3t+7.6438×10-5t2-8.2467×10-7t3+5.3875×10-9t4Bt=-5.72466×10-3+1.0227×10-4t-1.6546×10-6t2K(S,t,P)=K(S,t,0)+As+(Bs)2K(S,t,0)=kw+Et×S+Ft×S32其中,ρw表示标准平均海水密度,At,Bt表示随时间变化的盐度系数,C表示常量,C=4.8314×10-4,K(S,t,0)表示在标准大气压P=0时的正割体积模量,As,Bs,Aw,Bw均表示时间和盐度的函数,kw,Et,Ft表示随时间变化的方程。As=Aw+(2.2838×10-3-1.0981×10-5t-1.6078×10-6t2)S+1.91075×10-4S23Bs=Bw+(-9.9348×10-7+2.0816×10-8t+9.1697×10-10t2)SAw=3.239908+1.43713×10-3t+1.16092×10-4t2-5.77905×10-7t3Bw=8.50935×10-5-6.12293×10-6t+5.2787×10-8t2kw=19652.21+148.4206t+1.3360477×10-2t3-5.155288×10-5t4Et=54.6746-0.603459t+1.09987×10-2t2-6.1670×10-5t3Ft=7.994×10-2+1.6483×10-2t-5.3009×10-4t2第二步:确定密跃层,格式化存储海洋数据。本专利技术根据《中国海洋调查规范规定》中采用的垂向梯度法确定密度跃层。本专利技术将密度梯度定义为G,密度梯度G与密度D、深度d(或压力)以及层数n之间的关系如公式(2)。在水深大于200米时定义G≥0.015、水深小于200米时G≥0.1处即为密度跃层。本专利技术设立了一个标记号flag,用来记录在该层(深度)密度是否有较大变化,如果有则将该列设为1,从而确定密度跃层,形成一个如表1所示的12列数据格式的数据进行存储。表1预处理数据格式预处理行数预处理特征1深度(m)2压力(dbar)3温度(摄氏度)4盐度5密度(kg/m3)6经度7纬度8年9月10日11密度梯度G12标记号flagG可以是正的,也可以是负的,对于密跃层,简化为G=|G|>0当计算深度为第一层时,定义密度梯度G=0。密度梯度的选择如表2所示。表2密度梯度选择第三步:利用多项式回归确定训练集比例,三次样条插值平滑数据。通过多项式回归进行训练集的比例选择,选取测试集与训练集之间的比例为自变量X,精确度为因变量Y进行多项式回归,并引入混淆矩阵来代表判定误差及精确度,获取最佳的训练集比例0.45。本专利技术引入混淆矩阵来代表判定误差及精确度。混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数本文档来自技高网...

【技术保护点】
1.一种基于机器学习的密跃层预测方法,方法包括以下步骤:/n(1)选定数据源,确定密度跃层,将数据格式化存储:选取包括海洋温度、盐度数据的海洋数据集,从中选取0-500m深度范围内的数据作为训练集与测试集,根据海洋密度算法计算所需要的密度数据,将密度梯度定义为G,根据G与密度D、深度d以及层数n之间的关系求出密度梯度G,设立一个标记号flag,用来记录在某层密度是否有较大变化,如果有则将该列设为1,从而根据设立的标记号flag确定密度跃层,形成包含深度,压力,温度,盐度,密度,经度,纬度,日期,密度梯度G,标记号flag的数据集进行存储。/n(2)确定训练集的选取比例,利用三次样条插值平滑温度、盐度数据:训练集的选取比例确定为0.45,采用三次样条曲线插值方法对盐度和温度数据进行插值平滑预处理,从而获得均匀分布的盐度、温度数据;/n(3)利用特征缩放加快梯度收敛;/n(4)优化SVM算法参数及进行特征排序:利用基于变步长网格搜索算法来确定SVM模型的超参数C和gamma,在作为第一次搜索的粗搜步骤下得到的最优解满足局部最优解的超参数C和gamma;从第二次搜索开始,将寻优起始点设定为上一次得到的最优解处,步长设定为上一次步长的百分之20。如此往复,直至找到满足全局最优解的超参数C和gamma;采取高斯核RBF作为核函数,针对每个单独的特征和响应变量结合得到的超参数建立预测模型,分别让每个特征与响应变量做模型分析并得到误差率,最后对每个特征的分数进行排序,从而能够的到对密度跃层影响最大的特征数据。/n...

【技术特征摘要】
1.一种基于机器学习的密跃层预测方法,方法包括以下步骤:
(1)选定数据源,确定密度跃层,将数据格式化存储:选取包括海洋温度、盐度数据的海洋数据集,从中选取0-500m深度范围内的数据作为训练集与测试集,根据海洋密度算法计算所需要的密度数据,将密度梯度定义为G,根据G与密度D、深度d以及层数n之间的关系求出密度梯度G,设立一个标记号flag,用来记录在某层密度是否有较大变化,如果有则将该列设为1,从而根据设立的标记号flag确定密度跃层,形成包含深度,压力,温度,盐度,密度,经度,纬度,日期,密度梯度G,标记号flag的数据集进行存储。
(2)确定训练集的选取比例,利用三次样条插值平滑温度、盐度数据:训练集的选取比例确定为0.45,采用三次样条曲...

【专利技术属性】
技术研发人员:杨嘉琛吕彩云
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1