当前位置: 首页 > 专利查询>辽宁大学专利>正文

一种面向矿山微震事件预警时间序列的动态矩阵聚类方法技术

技术编号:37214831 阅读:10 留言:0更新日期:2023-04-20 23:03
一种面向矿山微震事件预警时间序列的动态矩阵聚类方法。设计方法如下:首先,构建近邻评价体系,根据评价值优劣衡量微震事件的代表性,通过近邻评分的后向差分计算策略构建RDS候选集;其次,提出基于组合优化的RDS选取方法,从候选集上快速得到RDS最优解;最后,动态构建RDS与数据集的距离矩阵,提出基于K

【技术实现步骤摘要】
一种面向矿山微震事件预警时间序列的动态矩阵聚类方法


[0001]本专利技术属于流式数据挖掘领域,特别涉及一种工业物联网时间序列异构数据的处理设计,具体涉及一种面向矿山微震事件预警时间序列的动态矩阵聚类方法。

技术介绍

[0002]近年来,随着信息化技术的快速发展,金融、生物、气象、医学,工业物联网等各个领域产生了大量的时间序列数据,挖掘数据中的潜在价值对决策者具有重大的指导作用。聚类作为一种无监督学习方法,由于其事先无需对任一样本打类别标记,在分析数据的内在关系及蕴含的信息、知识等方面发挥着至关重要的作用。
[0003]冲击地压一直是煤矿开采过程中最严重的灾害之一,当微震事件发生时会释放巨大能量,可能在短时间内摧毁煤矿井下的开采工作面,造成严重的人员伤亡以及巨额的直接经济损失。在微震事件的监测系统中,采集器会采集微震事件发生时产生的弹性波数据,数据为时间序列形式,如图1所示。通过对微震事件波形的聚类,可实现事件的无监督识别,从而定位出冲击地压的发生区域,为煤矿的开采提供安全风险预警。
[0004]现实中,时间序列数据受环境及人为因素干扰,数据的结构总是存在伸缩、漂移等失真问题,使得序列间距离计算的精度较低,进而影响聚类准确率。此外,时间序列数据集多含有大量的噪声,如图1中的第4个子图所示,受外部环境的影响,采集器采集的数据很多并非是真实事件的弹性波,而是爆破、背景噪声、矿车振动等干扰数据,去噪不彻底或去噪过度均极大地影响聚类准确率与效率。因此,如何在含噪数据集上对结构失真的时间序列进行精准高效的聚类,一直是流数据挖掘领域研究的难点,也是当前亟待解决的问题。

技术实现思路

[0005]本专利技术针对上述问题,设计一种面向矿山微震事件预警时间序列的动态矩阵聚类方法,通过精准、高效地构建RDS与数据集的距离矩阵,将对原始数据集的聚类转化为对动态化矩阵的聚类,实现对矿山微震预警时间序列的事件有效预警。
[0006]本专利技术的目的是通过下述技术方案实现的:一种面向矿山微震事件预警时间序列的动态矩阵聚类方法,其步骤为:
[0007]1)构建近邻评价体系,根据评价值优劣衡量微震事件的代表性,通过近邻评分的后向差分计算策略构建RDS候选集,具体方法为:
[0008]近邻评价体系构建:
[0009]提出RDS及其候选集概念,并基于矿山微震近邻密度和反向近邻数构建事件近邻评价体系,为衡量数据集中序列之间的相似程度并实现RDS候选集的选取及去噪,结合序列的近邻密度和反向近邻数,提出序列近邻评价规则,通过序列近邻评分的高低将数据集中的所有序列划分为三种不同类型;
[0010]定义1RDS:给定时间序列数据集D={T1,T2,...,T
i
,...,T
n
},RDS为从D中选出的可最大化地代表不同类簇且差异性最大的k个序列,其中的一个序列记为RDSi,1≤k≤n且1≤
i≤k;
[0011]数据集D被划分为四个类簇C1~C4,每个类簇包含许多序列,D中有最佳的RDS,其中,RDS1与类簇C1中任一序列的距离d1较小,使得它与C1的整体相似度最大,最大化地代表C1;RDS2、RDS3分别最大化地代表C2、C3;RDS1~RDS3间的距离d4~d6均较大,在最大化地代表D中不同类别的同时,满足互相之间的差异性最大;
[0012]RDS选取策略影响时间序列聚类效率,直接从数据集D中选取的代价过高,因而先构建其候选集,再从候选集中查找k个代表性与差异性同时最大的序列构成RDS;
[0013]为刻画数据集中每个序列与其他序列的近邻关系,根据序列间的互相关距离的大小,给出序列r邻域的定义;
[0014]定义2r邻域:给定大小为n的数据集D,时间序列x的r邻域NN
r
(x)定义为D中与x距离最近的r个序列的集合,即:
[0015]NN
r
(t)={x|d(t,x)≤d
r
(t)}(5)
[0016]其中,1≤r<n,d(x,y)表示x与序列y的互相关距离,dr(x)表示x与其他序列的第r近邻互相关距离;
[0017]对于一个序列x,使用x的近邻密度量化x与其r邻域内的所有序列的总体相近程度;
[0018]定义3近邻密度:给定给定序列x的r邻域NN
r
(x),x的近邻密度F(x)为x与其r邻域内的所有序列的距离和的倒数,即:
[0019][0020]P(t)越大,表示t与所有在其r邻域内的温度的整体相似性越高;反之,则相似性越低,此外,通过反向近邻数可从反向角度衡量温度t与其他温度的相近程度;
[0021]定义4反向近邻数:反向近邻数Nb(x)表示在对数据集D中的每个序列构建其r邻域的过程中,序列x被其他序列近邻的总次数;即:对于若则Nb(x)=Nb(x)+1;
[0022]Nb(x)越大,表明x被更多的序列近邻,反向说明x与更多序列的距离越近,即x与更多序列的相似度越高;在近邻密度和反向近邻数的基础上,本文提出序列近邻评分的概念,同时从正反两方面综合衡量序列x与其他序列的整体相似性;
[0023]定义5近邻评分:给定序列x的反向近邻数Nb(x)与近邻密度F(x),x的近邻评分S(x)为ln(Nb(x)+1)与F(x)的乘积,即:
[0024][0025]公式(3)中,给定x的r邻域NN
r
(x),若x的反向近邻数Nb(x)与近邻密度F(x)越大,则S(x)越大,表明x与更多序列相似,即x为具有代表性的序列,因此x属于RDS候选集;若Nb(x)或F(x)越小,使得S(x)越小时,表明几乎没有与x相似的序列,x应属于噪声。
[0026]2)提出基于组合优化的RDS选取方法,从候选集上快速得到RDS最优解,具体方法为:
[0027]基于后向差分法的RDS候选集构建:
[0028]在近邻评价体系的基础上,提出近邻评分的后向差分计算策略,依据差分计算结果快速筛选RDS候选集;
[0029]矿区实际微震数据集包含多种类型的微震事件及部分噪声,事件与噪声都是时间序列形式的数据,对该数据集中的所有序列需要计算近邻评分,归一化并排序;
[0030]提出近邻评分的后向差分计算策略,通过比较差分值的大小确定边界并构建候选集,后向差分计算公式如下:
[0031][0032]其中,为差分算子,S(t)与S(t

1)为两个相邻温度。
[0033]3)动态构建RDS与数据集的距离矩阵,提出基于K

means的矩阵聚类方法,通过对微震事件波形的聚类,实现事件的无监督识别,定位出冲击地压的发生区域,为煤矿的开采提供安全风险预警,具体方法为:
[0034]步骤3

1最优RDS解选取
[0035]由定义1可知,RDS需同时满足相似性与差异性两个条件,故RDS的选取为多条件约束最优解问题,通过组合优化的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向矿山微震事件预警时间序列的动态矩阵聚类方法,其特征在于,其步骤为:1)构建近邻评价体系,根据评价值优劣衡量微震事件的代表性,通过近邻评分的后向差分计算策略构建RDS候选集;2)提出基于组合优化的RDS选取方法,从候选集上快速得到RDS最优解;3)动态构建RDS与数据集的距离矩阵,提出基于K

means的矩阵聚类方法,通过对微震事件波形的聚类,实现事件的无监督识别,定位出冲击地压的发生区域,为煤矿的开采提供安全风险预警。2.根据权利要求1所述的一种面向矿山微震事件预警时间序列的动态矩阵聚类方法,其特征在于,所述的1)中具体方法为:近邻评价体系构建:提出RDS及其候选集概念,并基于矿山微震近邻密度和反向近邻数构建事件近邻评价体系,为衡量数据集中序列之间的相似程度并实现RDS候选集的选取及去噪,结合序列的近邻密度和反向近邻数,提出序列近邻评价规则,通过序列近邻评分的高低将数据集中的所有序列划分为三种不同类型;定义1RDS:给定时间序列数据集D={T1,T2,...,T
i
,...,T
n
},RDS为从D中选出的可最大化地代表不同类簇且差异性最大的k个序列,其中的一个序列记为RDSi,1≤k≤n且1≤i≤k;数据集D被划分为四个类簇C1~C4,每个类簇包含许多序列,D中有最佳的RDS,其中,RDS1与类簇C1中任一序列的距离d1较小,使得它与C1的整体相似度最大,最大化地代表C1;RDS2、RDS3分别最大化地代表C2、C3;RDS1~RDS3间的距离d4~d6均较大,在最大化地代表D中不同类别的同时,满足互相之间的差异性最大;RDS选取策略影响时间序列聚类效率,直接从数据集D中选取的代价过高,因而先构建其候选集,再从候选集中查找k个代表性与差异性同时最大的序列构成RDS;为刻画数据集中每个序列与其他序列的近邻关系,根据序列间的互相关距离的大小,给出序列r邻域的定义;定义2r邻域:给定大小为n的数据集D,时间序列x的r邻域NN
r
(x)定义为D中与x距离最近的r个序列的集合,即:NN
r
(t)={x|d(t,x)≤d
r
(t)}(1)其中,1≤r<n,d(x,y)表示x与序列y的互相关距离,dr(x)表示x与其他序列的第r近邻互相关距离;对于一个序列x,使用x的近邻密度量化x与其r邻域内的所有序列的总体相近程度;定义3近邻密度:给定给定序列x的r邻域NN
r
(x),x的近邻密度F(x)为x与其r邻域内的所有序列的距离和的倒数,即:P(t)越大,表示t与所有在其r邻域内的温度的整体相似性越高;反之,则相似性越低,此外,通过反向近邻数可从反向角度衡量温度t与其他温度的相近程度;定义4反向近邻数:反向近邻数Nb(x)表示在对数据集D中的每个序列构建其r邻域的过
程中,序列x被其他序列近邻的总次数;即:对于若则Nb(x)=Nb(x)+1;Nb(x)越大,表明x被更多的序列近邻,反向说明x与更多序列的距离越近,即x与更多序列的相似度越高;在近邻密度和反向近邻数的基础上,本文提出序列近邻评分的概念,同时从正反两方面综合衡量序列x与其他序列的整体相似性;定义5近邻评分:给定序列x的反向近邻数Nb(x)与近邻密度F(x),x的近邻评分S(x)为ln(Nb(x)+1)与F...

【专利技术属性】
技术研发人员:王俊陆张嘉诚宋宝燕陈廷伟马瑞强
申请(专利权)人:辽宁大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1