当前位置: 首页 > 专利查询>河海大学专利>正文

一种面向大坝安全监测数据的相似性数据聚类方法技术

技术编号:22022820 阅读:46 留言:0更新日期:2019-09-04 01:29
本发明专利技术公开了一种面向大坝安全监测数据的相似性数据聚类方法,步骤为:利用EMD算法分离单测点序列趋势项与高频噪声,采用累积和控制图的拐点检测方法对时间序列变化点进行检测,分裂得到所有子序列集合;在计算子序列距离问题上采用DTW距离度量方法,动态计算两条子序列数据之间的距离最小值;利用层次聚类将挖掘出的子时间序列聚类,通过得到的树状聚类图,动态分析不同聚类数下的时间序列聚类分布情况。本发明专利技术合理分析监测数据相似性,可以挖掘出同一监测点在时间序列上的相关性,同时能量化安全监测数据之间相关性大小。经相似性分析处理后的监测数据,能准确反映大坝在时间维度上的变化趋势,结合变化趋势规律能有效降低后续监测数据挖掘难度。

A Similarity Data Clustering Method for Dam Safety Monitoring Data

【技术实现步骤摘要】
一种面向大坝安全监测数据的相似性数据聚类方法
本专利技术属于大坝安全监测时空序列预测
,特别涉及一种面向大坝安全监测数据的相似性数据聚类方法。
技术介绍
大坝安全监测数据是大坝运行状态的整体表现,在受相同或相似外界因素影响下,其各区域之间数据必定存在相关性,这种相关性主要表现在时间序列趋势变化相似或空间趋势变化相似上。如大坝顺河向位移与各个坝段压力应变存在相似变化趋势,大坝中各区域温度与应压力之间的存在相关性等。合理分析监测数据相似性,通过相似性分析不仅可以挖掘出哪些监测变量之间具有相关性,同时能量化安全监测数据之间相关性大小。经相似性分析处理后的监测数据,能准确反映大坝在时间与空间维度上的变化趋势,结合变化趋势规律能有效降低后续监测数据挖掘难度。针对大坝安全监测中存在的大量时间序列数据,对序列的相似性分析能挖掘出其潜在的规律对后续研究提供可靠依据。在序列长度研究方面,根据序列长度是否一致,将序列相似性度量分为锁步距离与动态距离,分析锁步距离计算简单复杂度不高但可扩展性低,动态距离计算复杂但扩展性强。基于不同时间序列相似性度量方法的特点,序列相似性度量被广泛应用在经济、医学、交本文档来自技高网...

【技术保护点】
1.一种面向大坝安全监测数据的相似性数据聚类方法,其特征在于,包括如下步骤:(1)对待处理的完整的长时间大坝监测序列数据,采用自相关性检验方法分析该序列是否适合子序列挖掘;采用EMD算法处理数据依据数据自身的时间尺度特征来进行信号分解,保证数据平滑;(2)采用累积和控制图的拐点检测方法,检测序列数据中的突变点,通过持续分裂,最终得到所有子序列集合;(3)对时间序列形态挖掘过程当中,采用DTW方法计算子序列间的距离,比较大坝监测数不同子序列间距离,评价挖掘聚类效果。

【技术特征摘要】
1.一种面向大坝安全监测数据的相似性数据聚类方法,其特征在于,包括如下步骤:(1)对待处理的完整的长时间大坝监测序列数据,采用自相关性检验方法分析该序列是否适合子序列挖掘;采用EMD算法处理数据依据数据自身的时间尺度特征来进行信号分解,保证数据平滑;(2)采用累积和控制图的拐点检测方法,检测序列数据中的突变点,通过持续分裂,最终得到所有子序列集合;(3)对时间序列形态挖掘过程当中,采用DTW方法计算子序列间的距离,比较大坝监测数不同子序列间距离,评价挖掘聚类效果。2.根据权利要求1所述的一种面向大坝安全监测数据的相似性数据聚类方法,其特征在于,所述步骤(1)中采用自相关性检验方法和EMD方法对数据处理的具体步骤如下:(1.1)时间序列自相关性检验:长度为n的时间序列数据S={x1,x2,…,xt},subi={xi,…,xi+k}为i到i+k连续时间范围内的观测序列,subj={xj,…..,xj+l}为j到j+l连续时间范围的观测序列;其中1≤i<i+k≤n,1≤j<j+l≤n,i≠j,k>0,l>0;若存在函数A,当A(subi)≈A(subj)则有subi与subi为一组自相似对,记作I=<subi,subj>;(1.2)自相关性方法分析序列自相关性:自相关性方法在时间序列分析时,被用来分析同一条序列中的滞后自相关性规律:E代表期望,k表示滞后的时间戳,σ代表数据标准差,S(t)表示序列中t时刻监测值,S(t+k)表示在t+k时刻的时间序列监测值,μt,μt+k表示同一条时间序列中在t,t+k时刻的期望值;(1.3)EMD模态分解:EMD处理数据依据数据自身的时间尺度特征来进行信号分解,即局部平稳化,而无须预先设定基函数,将含有噪声的信号分解为一组变化单一的本征模函数IMF,且IMF须满足以下两个性质:函数在整个时间范围内,局部极值点和过零点的数目必须相等,或最多相差一个;在任意时刻,局部最大值的包络即上包络线和局部最小值的包络即下包络线平均必须为零;(1.4)计算均值包络线:(1.5)计算剩余项:h1(t)=r1(t)-m1(t),r1(t)为原始序列S(t),e+(t)为r1(t)的上包络线,e_(t)为r1(t)下包络线,m1(t)表示r1(t)序列的均值包络线;(1.6)不断计算剩余项的上下包络线,减去上下包络线平均值,直到所有数据满足上述条件为止;最终得到原始时间序列n个本征函数ci(t)与趋势项rn(t);(1.7)根据IMF序列的特征频率变化区间,序列分割时能够依据频率范围选择指定误差范围内的IMF组合最终达到CUSUM分裂所要求的平滑数据。3.根据权利要求1所述的一种面向大坝安全监测数据的相似性数据聚类方法,其特征在于,所述步骤(2)中采用累积...

【专利技术属性】
技术研发人员:毛莺池钱俊卢吉王龙宝曹海唐清弟曹学兴杨念东蒋金磊平萍谭彬张浩江梁国峰段云超孙建英
申请(专利权)人:河海大学华能澜沧江水电股份有限公司华能集团技术创新中心有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1