一种基于马氏距离IDTW的岩层分类方法技术

技术编号:19823877 阅读:28 留言:0更新日期:2018-12-19 15:27
本发明专利技术公开了一种基于马氏距离IDTW的岩层分类方法,步骤是:S1、获取岩层数据,并将第一次获取的岩层数据作为训练样本数据;S2、通过聚类确定训练样本类别;S3、继续提取最新岩层数据,并将之作为待分类的测试样本数据;S4、使用基于马氏距离IDTW方法,计算出待分类的测试样本数据与已确定类别的训练样本数据之间的距离;S5、计算待分类的测试样本和每个训练样本的距离,分类;S6、完成。本发明专利技术首先获取岩层训练数据及测试数据,然后采用基于马氏距离IDTW距离对岩层数据样本进行相似性度量,排除样本属性之间的相关性以及时间序列数据偏移的影响,最后结合最近邻(1‑NN)分类算法对岩层数据进行分类,实现对地下的地质结构及成分的空间分布的判定。

【技术实现步骤摘要】
一种基于马氏距离IDTW的岩层分类方法
本专利技术涉及岩层数据分类领域,特别是一种基于马氏距离IDTW的岩层分类方法。
技术介绍
岩层分类是根据一个地区的岩石客观存在的不同属性或特征,把组成这个地区的地壳的岩层划分成不同类型的地质层。只有把当地的岩层(石)构造了解清楚,对不同岩层(石)进行了准确的分类,才能很好的了解当地的地下地质结构、成分的空间分布,以及当时(历史)的地质形成过程,对今后的地质研究、地下资源勘探奠定了良好的基础。因此,获取岩层数据、分析岩层数据和分类岩层数据就显得极其重要。目前,对岩层数据进行分类研究,一般采用最近邻分类算法、支持向量机或神经网络等方法,其中,最近邻(1-NearestNeighbor,1-NN)分类算法使用较多。该分类方法是指如果一个样本在特征空间中的1个最相近(即特征空间中最邻近)的样本属于某个类别,则该样本也属于这个类别。此方法特别适合多分类问题,对于类域的交叉或重叠较多的待分样本集来说,此方法较其他方法更合适,并且其使用简单,易于实现,无需参数估计及训练。最近邻分类算法的核心在于样本间距离的计算,计算距离有多种不同的方法,曼哈顿距离、欧氏距离、汉明距离和动态时间规整距离(DTW,即DynamicTimeWarping)等,传统的DTW通过考虑数值上的相似性来对X轴(时间轴)进行规整,因此可以在一定程度上有效地解决X轴上的偏移和伸缩等问题,较前几种方法好,但是,其忽略了数据在数值轴(Y轴)上的偏移且对奇异值敏感。另外,岩层数据有其自身的特点,如:数据内容复杂,具有非线性、高维度、信息冗杂、伴随噪声等,如果直接采用经典的时间序列度量方法,并不能有效地对样本的相似性进行度量,使得最近邻分类方法无法准确的对样本分类。因此,对DTW进行改进,使得相似性度量更加有效,还有待进一步的研究。综上所述可以看出,如何进一步改进DTW,使得最近邻分类效果改善是当前需要解决的问题。
技术实现思路
本专利技术的目的是为了解决针对传统DTW忽略了时间序列样本在数值轴(Y轴)上的偏移且对奇异值敏感、多个变量之间的相关性而使相似性度量不准确进而导致岩层分类效果不好的问题,而提出一种基于马氏距离IDTW(ImprovedDynamicTimeWarping)的岩层分类方法。为达到上述目的,本专利技术是按照以下技术方案实施的:一种基于马氏距离IDTW的岩层分类方法,该岩层分类方法的步骤是:S1、获取岩层数据,并将第一次获取的岩层数据作为训练样本数据,该训练样本数据为多维时间序列X={x1,x2,x3,…,xn},其中,xi(1≤i≤n)是序列X的第i个序列,为一个l×d的矩阵,l为时间序列的长度,d为时间序列的维度;n为序列X的长度;S2、将步骤S1中得到的训练数据样本X={x1,x2,x3,…,xn}通过K均值聚类或层次聚类方法,对岩层训练样本进行聚类处理,从而得到岩层样本数据的类别标签Y={y1,y2,y3,…,yn},其中,聚类的类别数设为c,yj(1≤j≤n)的值由聚类结果确定;S3、继续提取最新岩层数据,并将之作为待分类的测试样本数据X'={x1',x2',x3',…,xm'},其中,m为序列X'的长度;S4、使用基于马氏距离IDTW方法,计算出待分类的测试样本数据X'={x1',x2',x3',…,xm'}与已确定类别的训练样本数据X={x1,x2,x3,…,xn}之间的距离;此距离为一个矩阵其中dij=IDTWM(xi,xj'),IDTWM为xi和xj'之间基于马氏距离ITDW的距离,xi和xj'分别为已确定类别的训练样本X和测试样本X'的第i个和第j个样本;S41、两样本的局部距离计算公式为:dl(i,j)=(w(xii)-w(xjj'))2其中,1代表时间序列X轴的数值特征,xii表示xi中第i行数据,min|Δx|表示岩层训练样本序列X中所有点的最小梯度值,为序列的梯度特征,用时间序列中相邻两点的差值来表示某一点的梯度,通过对两个特征量进行加和,将其结合在一起;岩层测试样本的w(xjj')计算同理;S42、基于马氏距离IDTW距离寻找两个样本序列xi'={xi1',xi2',xi3',…,xil'”}和xj={xj1,xj2,xj3,…,xjl'}之间的最优弯曲路径来计算马氏距离度量值IDTWM(xi',xj),其中l'为xi'和xj的长度;采用马氏距离计算得出d(qk):在所有的弯曲路径中,存在一条最优的路径使得弯曲代价最小,即:其中,q={q1,q2,q3,…qr'}为弯曲路径,r=1,2,3…r',r'=(l')2,qr表示xi'中的第i'个元素xii'r'与xj中的第j'个元素xjj'r之间的对应关系,1≤i'≤l',1≤j'≤l',d(qr)为xii'r'与xjj'r的弯曲代价;C-1为待分类的测试样本的各变量之间的协方差矩阵的逆,其计算方式为:C-1=(E{[X'-E(X')][X'-E(X')]T})-1;S43、求解通过动态规划来构造一个弯曲代价矩阵:a(i',j')=d(i',j')+min{a(i',j'-1),a(i'-1,j),a(i'-1,j'-1)}其中,令a(0,0)=0,a(j',0)=a(i',0)=+∞,a(i',j')即为时间序列xi'和xj之间的最小距离,也可得到IDTWM(xi',xj)=min{a(l',l')};S5、采用基于马氏距离IDTW距离的最近邻(1-NN)分类方法对待分类的测试样本X'={x1',x2',x3',…,xm'}进行分类,确定其所属类别Y'={y1',y2',y3',…,ym'},类别Y'的取值范围为1~c,且为正整数;S51、使用基于马氏距离IDTW的方法,计算待分类的测试样本和每个训练样本的距离dist;S52、得到前一个最邻近样本中的最大距离maxdist;S53、如果dist小于maxdist,则将该训练样本作为最近邻样本;S54、重复步骤S52和S53,直到待分类的测试样本和所有训练样本的距离都计算完;S55、统计最近邻样本中每个类别出现的次数;S56、根据少数服从多数原则,近邻中哪个类别出现的次数最多,待分类的测试样本就属于该类;S6、使用基于马氏距离IDTW的岩层分类方法完成。优选的,所述岩层数据由地质勘探仪器获取。优选的,步骤2中,所述c为大于1小于n的整数。与现有技术相比,本专利技术的有益效果为:岩层数据是表示地质信息的,地质信息是反映地质实体特性的。对岩层数据进行采集、分析、分类,是了解和研究当地和当时(历史)的地质形成过程的重要步骤,其中,数据分类是最重要的一环,在数据分类的基础之上,还可以完成其他的数据挖掘任务,比如异常检测等。原始的岩层数据内容复杂,具有非线性、高维度、信息冗杂、伴随噪声等特点,如果直接采用传统的欧氏距离、动态时间规整距离,来对岩层数据进行相似性度量,其效果并不会很好,因为该方法不能排除多变量之间的相关性的干扰,同时,对于时间序列存在部分偏移,不能实现异步度量,这样,对下一步的数据分类造成很大影响。因此,需要选取合适的相似性度量方法对数据样本间的距离进行准确度量,来确保相应的数据处理取得良好的效果。本专利技术的基于马氏距离IDTW的岩层分类方法,首先通过地质勘探设备获取岩层训练本文档来自技高网
...

【技术保护点】
1.一种基于马氏距离IDTW的岩层分类方法,其特征在于:岩层分类方法的步骤是:S1、获取岩层数据,并将第一次获取的岩层数据作为训练样本数据,该训练样本数据为多维时间序列X={x1,x2,x3,…,xn},其中,xi(1≤i≤n)是序列X的第i个序列,为一个l×d的矩阵,l为时间序列的长度,d为时间序列的维度;n为序列X的长度;S2、将步骤S1中得到的训练数据样本X={x1,x2,x3,…,xn}通过K均值聚类或层次聚类方法,对岩层训练样本进行聚类处理,从而得到岩层样本数据的类别标签Y={y1,y2,y3,…,yn},其中,聚类的类别数设为c,yj(1≤j≤n)的值由聚类结果确定;S3、继续提取最新岩层数据,并将之作为待分类的测试样本数据X'={x1',x2',x3',…,xm'},其中,m为序列X'的长度;S4、使用基于马氏距离IDTW方法,计算出待分类的测试样本数据X'={x1',x2',x3',…,xm'}与已确定类别的训练样本数据X={x1,x2,x3,…,xn}之间的距离;此距离为一个矩阵

【技术特征摘要】
1.一种基于马氏距离IDTW的岩层分类方法,其特征在于:岩层分类方法的步骤是:S1、获取岩层数据,并将第一次获取的岩层数据作为训练样本数据,该训练样本数据为多维时间序列X={x1,x2,x3,…,xn},其中,xi(1≤i≤n)是序列X的第i个序列,为一个l×d的矩阵,l为时间序列的长度,d为时间序列的维度;n为序列X的长度;S2、将步骤S1中得到的训练数据样本X={x1,x2,x3,…,xn}通过K均值聚类或层次聚类方法,对岩层训练样本进行聚类处理,从而得到岩层样本数据的类别标签Y={y1,y2,y3,…,yn},其中,聚类的类别数设为c,yj(1≤j≤n)的值由聚类结果确定;S3、继续提取最新岩层数据,并将之作为待分类的测试样本数据X'={x1',x2',x3',…,xm'},其中,m为序列X'的长度;S4、使用基于马氏距离IDTW方法,计算出待分类的测试样本数据X'={x1',x2',x3',…,xm'}与已确定类别的训练样本数据X={x1,x2,x3,…,xn}之间的距离;此距离为一个矩阵其中dij=IDTWM(xi,xj'),IDTWM为xi和xj'之间基于马氏距离ITDW的距离,xi和xj'分别为已确定类别的训练样本X和测试样本X'的第i个和第j个样本;S41、两样本的局部距离计算公式为:dl(i,j)=(w(xii)-w(xjj'))2其中,1代表时间序列X轴的数值特征,xii表示xi中第i行数据,min|Δx|表示岩层训练样本序列X中所有点的最小梯度值,为序列的梯度特征,用时间序列中相邻两点的差值来表示某一点的梯度,通过对两个特征量进行加和,将其结合在一起;岩层测试样本的w(xjj')计算同理;S42、基于马氏距离IDTW距离寻找两个样本序列xi'={xi1',xi2',xi3',…,xil′′}和xj={xj1,xj2,xj3,…,xjl'}之间的最优弯曲路径来计算马氏距离度量值IDTWM(xi',xj),其中l'为xi'和xj的长度;采用马氏距离计算得出d(qk):在所有的弯曲路径中,存在一条最优的路径使...

【专利技术属性】
技术研发人员:乔美英刘宇翔兰建义陶慧闫书豪王波
申请(专利权)人:河南理工大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1