当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于多模型融合的海洋单要素观测质量控制方法技术

技术编号:30560734 阅读:86 留言:0更新日期:2021-10-30 13:43
一种基于多模型融合的海洋单要素观测质量控制方法,采用统计分析和单分类算法相结合的四层模型架构,对海洋站点某要素历史观测数据是否出现异常进行检测。包括:S1.输入层,对海洋站点某要素历史观测数据,构造由远及近三段时间窗口,提取统计特征、拟合特征和分类特征,构造检测样本;S2.统计分析层,利用统计判别算法过滤掉70%的正样本,减小异常候选集规模,有效缓解正负样本不平衡带来的影响;S3.单分类层,利用单分类模型对疑似异常的观测数据点进一步检测;S4.输出层,综合统计分析层和单分类层的结果作出最终判决,并对检测效果进行评估。本发明专利技术综合考虑多种模型的检测结果,以做出最佳决策,有效提高了检测方法的准确性。有效提高了检测方法的准确性。有效提高了检测方法的准确性。

【技术实现步骤摘要】
一种基于多模型融合的海洋单要素观测质量控制方法


[0001]本专利技术涉及海洋监测
,更具体的说是涉及一种基于多模型融合的海洋单要素观测质量控制方法。

技术介绍

[0002]海洋环境观测数据是海洋数据的重要组成部分,特别是锚系浮标、海洋站等数据所具备的长期性、连续性等优势是其他走航、大面调查数据所无法比拟的。长期的观测数据在采集过程中受人为和非人为因素,以及站址变迁、平台漂移、仪器变更、观测时次/计算方法变更等影响,导致观测数据所表征的海洋状况与实际状况出现一定的偏差,因此,需要对数据进行质量控制。
[0003]目前,国内外对于海洋的监测仍主要采用基于经典统计理论的传统检验,在得到要素对应的距平、极值和梯度等阈值范围后,开展数据质量控制。主要包括对时间、空间和格式等要素开展对应的日期合理性检验、登陆点检验、非法码检验等;对要素开展范围检验、相关性检验和递增性检验等。国际浮标质量控制方法主要沿用现有海洋站方法,缺乏精细化的质控参数。随着大数据技术的发展,国内一些学者提出并尝试采用关联规则、数据挖掘方法开展定点连续海洋数据的质量控制。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多模型融合的海洋单要素观测质量控制方法,其特征在于,采用统计分析和单分类算法相结合的四层模型架构,对于海洋站点观测到的某要素历史观测数据的异常进行判决,包括:S1.第一层为输入层,对于海洋站点某要素历史观测数据,构造由远及近三段时间窗口,提取统计特征、拟合特征和分类特征,构造检测样本;S2.第二层为统计分析层,利用统计判别算法过滤掉70%以上的正样本,减小异常候选集规模,有效缓解正负样本不平衡带来的影响;S3.第三层为单分类层,利用单分类模型对疑似异常的观测数据点进一步检测;S4.第四层为输出层,综合统计分析层和单分类层的检测结果作出最终判决,并对检测效果进行评估;其中,所述统计判别算法包括3σ检测、EWMA检测和多项式回归检测;单分类模型包括孤立森林和One

class SVM。2.根据权利要求1所述的一种基于多模型融合的海洋单要素观测质量控制方法,其特征在于,步骤S1所述输入层中构造检测样本的具体方法为:为了同时从较近和较远的历史数据中提取信息,对每个检测点生成三段时间窗口,分别为:1)包含待检测T时刻前h小时内的历史观测数据;2)y天前同一时刻前h小时和后h小时内的历史观测数据;3)z天前,z>y,同一时刻前h小时和后h小时内的历史观测数据,三段时间窗口组合在一起共同组成T时刻的检测样本;为了使机器学习模型能够从时间序列中挖掘更多隐含的时间模式关联,需要将检测样本从原始数据空间映射到特征空间,对三段时间窗口组合后的数据,按时间顺序拼接成一个时间序列X,提取统计特征、拟合特征和分类特征;(1)统计特征:通过提取时间序列X在统计学上的特征构成特征向量,用于描述数据间的离散程度和变化趋势;对于时间序列的统计特征来说分为两类:时间域和频率域;时间域上的特征又分为有量纲的特征和无量纲特征,本发明具体提取的统计特征如下:
(2)拟合特征:通过使用移动平均算法、加权移动平均算法、指数加权移动平均算法和双指数移动加权平均算法共四种算法去拟合现有的时间序列X,所得到的拟合值与实际值的差值作为时间序列的拟合特征;该类特征基于滑动窗口考虑序列整体间的前后关联,假设时间序列滑动窗口长度w,x
T
表示T时刻的观测值,s
T
表示T时刻的平滑值,具体提取的拟合特征如下:1)移动平均(moving average,MA)滑动窗口内w个数据的未加权平均值,计算公式如下,2)加权移动平均(weighted moving average,WMA)计算滑动窗口内w个数据的平均值时将个别数据乘以不同数值,最近的数值乘以w、次近的乘以w

1,如此类推,一直到1,计算公式如下,3)指数加权移动平均(exponential weighted moving average,EWMA)指数加权移动平均算法中,各数值的加权系数随时间而呈指数式递减,越近期靠近当前时刻的数据加权系数越大,x
T
表示T时刻的观测值,系数α表示加权下降的速率,计算公式如下,4)双指数移动加权平均(double exponential moving average,DEWMA)双指数移动加权平均算法中,同时对观测值和平滑值进行指数加权移动平均,x
T
表示T时刻的观测值,s
T
表示T时刻的平滑值,引入b
T
表示T时刻的最佳估计值,系数α表示平滑值加权下降的速率,系数β表示平滑值加权下降的速率,进行两次指数移动,计算公式如下,
(3)分类特征:根据时间序列的走势,可将时间序列划分成周期型、平稳型、无规律波动型三类,具体来说,计算自相关系数、离散系数、分桶熵、值分布四项指标,来构造出时间序列的分类特征;1)自相关系数将一个时间窗口内的有序时间序列与自身相比较,判断序列中的组成部分相互之间是否存在相关性并用自相关值r表示;自相关值r的计算公式如下,式中n表示时间序列的长度,μ表示时间序列的平均值,σ表示时间序列的标准差,r的取值范围为[

1,1],1为最大正相关值,

1则为最大负相关值,0为不相关,2)离散系数离散系数c用于概率分布离散程度的一个归一化量度,定义为一个窗口内时间序列的标准差σ与平均值μ之比,3)分桶熵按整个时间序列的取值情况分成max_bins个桶,max_bins分别取2、4、6、8、10和20,把时间序列的每个时间点的取值放进相应的桶中,求熵e;p
k
表示落在第k个桶中的数占总体的比例,该特征用于衡量样本值分布的均匀度,4)值分布对于一个时间序列,首先将数据点按从小到大的顺序进行排序并归一化到0和1之间,以0、0.01、0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、0.99、1.0为间隔划分统计区间,计算每个区间内数据点个数所占数据点总数数的比例,作为值分布特征;对于某海洋要素是否发生数据异常进行检测,需要为待检测时刻T构造三段时间窗口,具体而言,待检测数据点为x
T
,y天前同一时刻数据点为y
T
,z天前同一时刻数据点为z
T
,假设数据点时间间隔为1小时,时间窗口长度为h小时,T时刻待检测数据点的三段时间窗口数据分别为:M
T
=[x
T

h
,x
T

h+1
,...,x
T
]表示待检测时刻所在的窗口数据;Y
T
=[y
T

h
,y
T

h+1
,...,y
T
,y
T+1
,...,y
T+h
]表示待检测时刻y天前的窗口数据;Z
T
=[z
T

h
,z
T

h+1
,...,z
T
,z
T+1
,...,z
T+h
]表示待检测时刻z天前的窗口数据;将Y
T
、Z
T
按时间顺序拼接在M
T
后,共同构成T时刻的检测样本X
T
,用于统计分析层的模型检测;对X
T
分别提取统计特征、拟合特征和分类特征,共同组成X
T

作为特征检测样本以表征T时刻待检测数据点的状态信息,用于单分类层的学习。3.根据权利要求1所述的基于多模型融合的海洋单要素观测质量控制方法,其特征在
于,针对所述统计分析层,步骤S2中所述统计判别算法包括3σ检测、EWMA检测、多项式回归检测,具体实现方法为:1)3σ检测3σ原则又称为拉依达准则,假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按3倍标准差的范围确定一个区间,认为误差超过这个区间的就属于异常值;规定观测值应满足如下公式,否则认为观测值异常,v
i
≤3σ其中υ
i
和σ分别表示观测值的剩余误差和标准差,定义如下,和σ分别表示观测值的剩余误差和标准差,定义如下,式中N表示观测值总数,i表示观测值的序号;2)EWMA检测相邻时间段内的数据往往具有相似的变化趋势,能够使用指数权重移动平均方法(Exponentially Weighted Moving

Average,EWMA)来对时间序列进行拟合,而噪音数据将会使曲线发生明显波动,由此推断该点出现了异常;在EWMA中,T时刻数据点的平滑值是由前一时刻的平滑值,加上T时刻的实际值修正而来,如下公式所示,s
T
=λ*x
...

【专利技术属性】
技术研发人员:陈萱李雨森梁建峰宋晓郑兵
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1