具有局部-整体约束的无重叠近似模式匹配方法组成比例

技术编号:22135240 阅读:26 留言:0更新日期:2019-09-18 08:58
本发明专利技术具有局部‑整体约束的无重叠近似模式匹配方法,涉及电数字数据处理技术领域,利用网树结构来解决(δ,γ)‑距离下的无重叠近似模式匹配问题,首先读入序列S、模式P、局部阈值δ和整体阈值γ,根据输入条件创建一棵网树,然后从最后一个根结点开始,判断是否存在满足局部‑整体约束的树根叶子路径,最后从叶子层开始,根据最右双亲策略回溯出一条出现,迭代此过程,直到第一个根结点。本发明专利技术克服了现有技术针对具有局部‑整体约束的无重叠近似模式匹配问题,存在很难兼顾求解的准确性、一般性和灵活性,以及在保证结果集非冗余的同时能够保留下有价值的信息的缺陷。

Non-overlapping Approximate Pattern Matching Method with Local-Global Constraints

【技术实现步骤摘要】
具有局部-整体约束的无重叠近似模式匹配方法
本专利技术的技术方案涉及电数字数据处理
,具体地说是具有局部-整体约束的无重叠近似模式匹配方法。
技术介绍
大数据时代已到来,从海量数据中挖掘出有价值的信息已成为新的研究热点,频繁模式挖掘是指从大量数据中找出频繁出现的模式,其主要任务是模式匹配,因为频繁模式挖掘通常需要计算一个模式的支持度,而支持度计算的实质就是模式匹配问题,因此,模式匹配是频繁模式挖掘的基础与核心,随着科学技术的发展,模式匹配已成为计算机科学中的一个重要研究方向,并且是许多工作的研究基础,不仅应用于简单的时间序列匹配,还应用于简单的生物序列匹配。模式匹配是指在序列S中查找与模式P相同或者相似的子序列的过程,其发展趋势主要有以下几种:①从传统的模式匹配到具有间隙约束的模式匹配;②从具有间隙约束的精确模式匹配到具有间隙约束的近似模式匹配;③从无特殊条件下的近似模式匹配到一次性条件下的近似模式匹配,再到无重叠条件下的近似模式匹配。在模式匹配问题中引入间隙约束,能使得问题求解更加灵活,并且能够避免匹配到无意义的模式,下例A对具有间隙约束的模式匹配问题进行了详细说明。例A.给定序列S=s1s2s3s4s5=acaba,模式P=p1[min1,max1]p2[min2,max2]p3=a[0,2]b[0,1]a。具有间隙约束的模式P表示为p1[min1,max1]p2…pj[minj,maxj]pj+1…[minm-1,maxm-1]pm,其中,minj和maxj分别表示子模式pj和子模式pj+1之间能够匹配的通配符的最小个数和最大个数,区间[minj,maxj]称为间隙约束,m表示模式串的长度。例A中,对于给定模式P=a[0,2]b[0,1]a,以a[0,2]b为例,[0,2]称为间隙约束,其中0表示子模式a和子模式b之间最少能够匹配0个通配符,2表示子模式a和子模式b之间最多能够匹配2个通配符;为了方便描述各出现,模式P在序列S中出现的所有字符,用序列S中对应字符的位置下标进行表示,该例中,给定模式P在给定序列S中的出现有2个,分别是<1,4,5>和<3,4,5>;<1,4,5>表示子序列s1s4s5和模式p1p2p3完全一致,其中字符s1和字符s4之间有2个字符,满足间隙约束[0,2],字符s4和字符s5之间没有字符,满足间隙约束[0,1];<3,4,5>表示子序列s3s4s5和模式p1p2p3完全一致,其中字符s3和字符s4之间没有字符,满足间隙约束[0,2],字符s4和字符s5之间也没有字符,满足间隙约束[0,1];由此可见,用户能够根据具体应用设置间隙的大小和长度,因此间隙约束比传统的通配符“?”和“*”更加灵活。具有间隙约束的模式匹配按照匹配类型,又为精确模式匹配和近似模式匹配,其中精确模式匹配发展比较成熟,它要求模式中的每个子模式和序列中的对应字符相一致,不允许误差的存在,但在生物信息检索、时间序列分析领域,由于基因会发生突变,时间序列数据预处理过程中会引入噪音,精确模式匹配已经不能够发现更多有效信息,抗干扰性差,这时就需要近似意义上的模式匹配,近似模式匹配要求模式中的每个子模式和序列中的对应字符不必完全相同,允许存在误差,能够匹配出更多有价值的信息。具有间隙约束的近似模式匹配常以序列之间的距离进行近似度量,Hamming距离是常用的一种度量距离,它是指两个等长序列对应位置的不同字符的个数,但Hamming距离无法度量序列之间的局部近似度,进而导致序列之间的整体不相似,以此引入了更大噪音,另一种度量距离是最初用于音乐信息检索的(δ,γ)-距离,其能够解决Hamming距离引入噪音的问题,因此,本专利技术采用(δ,γ)-距离对序列进行近似度量,其中δ-距离考虑了序列之间的局部约束,γ-距离考虑了序列之间的整体约束,下例B通过Hamming距离和(δ,γ)-距离度量时间序列进行对比说明。例B.给定模式P=b[0,1]d[0,1]b。说明书附图的图1表明,图1中的(1)与无间隙的给定模式P一致;图1中的(2)、(3)具有间隙约束,并且能够与给定模式P精确匹配。用Hamming距离作为给定模式P的度量距离:给定两个等长的序列X和序列Y,序列X和序列Y的Hamming距离为对应位置的不同字符的个数;图1中的(4)、(5)、(6)不能与给定模式P精确匹配,能够在Hamming距离的阈值为1时与给定模式P近似匹配,但阴影片段都与给定模式P的相应片段存在巨大偏差,导致图1中的(4)、(5)、(6)都与图1中的(1)在整体上不相似。用(δ,γ)-距离作为给定模式P的度量距离:δ-距离:给定字符集Σ中的任意两个字符x和字符y,字符x和字符y的δ-距离为|x-y|,记作Dδ(x,y);γ-距离:给定两个等长的序列X=x1x2…xn和序列Y=y1y2…yn,序列X和序列Y的γ-距离为其中1≤i≤n,记作Dγ(X,Y),其中n表示序列的长度。给定两个等长的序列X=x1x2…xn和序列Y=y1y2…yn,给定局部阈值δ和整体阈值γ,当:(1)则称序列X和序列Y满足局部近似度约束,简称局部约束,记作X=δY;(2)Dγ(X,Y)≤γ,则称序列X和序列Y满足整体近似度约束,简称整体约束,记作X=γY;(3)X=δY且X=γY,则称序列X和序列Y同时满足局部约束和整体约束,简称局部-整体约束,记作X=(δ,γ)Y;图1中的(7)、(8)、(9)不能与给定模式P精确匹配,但在(δ,γ)-距离下能够与给定模式P近似匹配,其中,图1中的(7)、(8)在局部阈值δ为1,整体阈值γ为1时能够与给定模式P近似匹配,并且都与图1中的(1)在整体上具有良好的相似性,说明δ-距离能够度量序列之间的局部近似度,使得序列之间满足局部约束;图1中的(9)在局部阈值δ为1,整体阈值γ为1时不能与给定模式P近似匹配,但在局部阈值δ为1,整体阈值γ为2时能够与给定模式P近似匹配,说明γ-距离能够度量序列之间的整体近似度,使得序列之间满足整体约束。说明书附图的图1表明,由于Hamming距离无法度量序列之间的局部近似度,导致序列之间的整体不相似;(δ,γ)-距离能够同时对序列之间的局部近似度和整体近似度进行度量,保证了序列之间的整体相似性。在具有间隙约束的近似模式匹配问题中,当不施加任何的约束方式时,即在无特殊条件下,会匹配出冗余的出现,这些出现并不是用户所需要的,导致过表达,一次性条件下的模式匹配虽然缩减了结果集,但是由于条件过于苛刻,会遗漏许多有用的信息,导致欠表达,无重叠条件下的模式匹配不仅缩减了结果集,精简计算,同时也保留了一些有价值的信息,能够同时避免过表达和欠表达,具有很大的发展潜力和研究意义,下例C采用例A中的序列S和模式P对无重叠条件下的(δ,γ)-近似模式匹配进行详细说明。例C.给定序列S=s1s2s3s4s5=acaba,模式P=p1[min1,max1]p2[min2,max2]p3=a[0,2]b[0,1]a。出现:给定序列S=s1s2...sn,模式P=p1[min1,max1]p2…[minm-1,maxm-1]pm,局部阈值δ和整体阈值γ,当存在m个整数l1本文档来自技高网...

【技术保护点】
1.具有局部‑整体约束的无重叠近似模式匹配方法,其特征在于:利用网树结构来解决(δ,γ)‑距离下的无重叠近似模式匹配问题,具体步骤如下:第一步,确定网树的层数:读入给定序列S,确定其长度为n,该序列S中的每个字符分别记作字符s1、字符s2、…、字符sn,读入给定模式P,确定其长度为m,该模式P的各个子模式分别记作子模式p1、子模式p2、…、子模式pm,这里0<m<n;根据给定模式P中的子模式数确定网树的层数,则网树共有m层,分别记作第1层、第2层、…、第m层;第二步,创建一棵网树,并计算网树中各个结点

【技术特征摘要】
1.具有局部-整体约束的无重叠近似模式匹配方法,其特征在于:利用网树结构来解决(δ,γ)-距离下的无重叠近似模式匹配问题,具体步骤如下:第一步,确定网树的层数:读入给定序列S,确定其长度为n,该序列S中的每个字符分别记作字符s1、字符s2、…、字符sn,读入给定模式P,确定其长度为m,该模式P的各个子模式分别记作子模式p1、子模式p2、…、子模式pm,这里0<m<n;根据给定模式P中的子模式数确定网树的层数,则网树共有m层,分别记作第1层、第2层、…、第m层;第二步,创建一棵网树,并计算网树中各个结点的最小树根距离给定局部阈值δ和整体阈值γ,这里0≤δ≤γ,并根据上述第一步中的序列S和上述第一步中的模式P创建一棵网树,在该网树的第j层中,标签为i的结点记作与精确模式匹配不同,具有局部-整体约束的无重叠近似模式匹配创建的网树中,每个结点需要记录字符si与子模式pj之间的δ-距离Dδ(si,pj),并且每个结点需要记录其最小树根距离来描述结点到达树根层的能力,即结点到达树根层的最短γ-距离,并把结点的最小树根距离初始化为0;在创建网树的过程中,根据各个结点的最小树根距离能够预先判断并删除网树中的无效双亲关系以及无效结点;具体处理方法如下:对上述第一步中的给定序列S中的字符si进行处理,并依次计算其与上述第一步中的给定模式P中的子模式p1、子模式p2、…、子模式pm之间的δ-距离Dδ(si,pj),其中1≤j≤m:当Dδ(si,pj)>δ,其中1≤j≤m,不需要在所创建网树的第j层创建结点当Dδ(si,pj)≤δ,其中j=1,直接在所创建网树的树根层创建结点结点的最小树根距离等于字符si与子模式p1之间的δ-距离Dδ(si,p1),通过公式(1)计算结点的最小树根距离公式(1)中,δ表示局部阈值,Dδ(si,p1)表示字符si与子模式p1之间的δ-距离;当Dδ(si,pj)≤δ,其中1<j≤m,在所创建网树的第j层创建结点并在所创建网树的第j-1层的所有结点中,通过以下方法,判断结点与结点之间能否建立双亲关系:当结点与结点之间满足间隙约束[minj-1,maxj-1],且结点和结点之间能够建立双亲关系,并在结点和结点之间建立双亲关系;当结点与结点之间不满足间隙约束[minj-1,maxj-1],或者结点和结点之间不能够建立双亲关系;依次遍历完网树第j-1层的所有结点确定其中能够与结点之间建立双亲关系的结点有t个,其中t≥0,当t=0时,则...

【专利技术属性】
技术研发人员:武优西菅博境刘茜王月华成淑慧王阳阳赵苏颖
申请(专利权)人:河北工业大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1