当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于频域特征的子序列检索方法和系统技术方案

技术编号:19278541 阅读:48 留言:0更新日期:2018-10-30 21:56
本发明专利技术提供一种基于频域特征的子序列检索方法和系统,检索方法包括:将滑动窗口在数据库的所有序列上依次滑动,滑动窗口任一次滑动获取一个与滑动窗口长度相等的子序列;对每一子序列进行离散傅里叶变换,获取每一子序列对应的频域特征序列,所有子序列对应的频域特征序列构成频域特征序列集合;遍历频域特征序列集合,基于降维规则对频域特征序列集合进行降维,获取基于频域特征的降维表示的序列;通过空间索引方法对降维表示的序列进行检索。本发明专利技术能够有效减少虚假匹配结果的数量,使得降维表示后的序列之间的距离更加接近原序列之间的实际距离,进而减小子序列近似查询的响应时间。本发明专利技术具备应对大数据的能力,且具有更好的实用价值。

【技术实现步骤摘要】
一种基于频域特征的子序列检索方法和系统
本专利技术涉及计算机数据管理
,更具体地,涉及一种基于频域特征的子序列检索方法和系统。
技术介绍
子序列近似查询的一般做法是:输入一个查询序列Q和不相似度阈值ε,输出数据库中所有满足匹配条件的子序列。匹配条件是指匹配序列和查询序列之间的不相似度不超过阈值ε。度量两条序列之间的不相似度的一种常见做法是使用序列距离函数,一种典型的序列距离函数是欧式距离,即给定两个等长序列和它们之间基于欧式距离的不相似度为子序列近似查询的一种暴力解法是直接检索数据库中的所有子序列,计算并判断每个子序列是否满足匹配条件,找出所有满足匹配条件的子序列后输出结果。这种解法在实际应用中往往是不可行的,因为序列本质上是高维数据,直接处理这些高维数据会带来昂贵的计算和存储成本,并且使得查询响应时间过长而难以接受。一种常见的替代方法是基于序列降维表示的子序列检索方法:(1)先对查询序列和数据库中序列的所有子序列进行降维表示;(2)然后对降维表示后的子序列进行检索,得到与降维表示后的查询序列相匹配的降维表示后的子序列集合A;(3)最后将集合A还原成原空间对应的子序列集合B,并通过一定的后处理,从子序列集合B中过滤出真正满足匹配条件的子序列集合C。记数据库中实际所有满足匹配条件的子序列集合为D,保证上述方法正确性的关键是要保证集合B是集合D的超集,即集合D中的每一个元素都在集合B中,而集合B中可能包含集合D中没有的元素,从而保证了从集合B中过滤出来的集合C等于集合D,即保证子序列近似查询结果没有遗漏。一种序列降维表示方法是基于频域特征,其一般思路是首先通过某种方法提取序列的频域特征,构成频域特征序列,然后利用频域特征的性质进行降维表示。提取序列的频域特征的常见做法之一是使用离散傅里叶变换(DiscreteFourierTransform,DFT),例如,一个长度为n的序列的离散傅里叶变换为一个长度为n的频域特征序列其中离散傅里叶变换具有一些良好的性质,使得当离散傅里叶变换被用在基于频域特征的序列降维表示方法中时,能够最终保证基于序列降维表示的子序列检索方法的正确性。下面进行说明:首先离散傅里叶变换满足帕萨瓦尔定理,即如果是序列的离散傅里叶变换,那么有其次,离散傅里叶变换是一种线性变换,因此如果序列的离散傅里叶变换为序列的离散傅里叶变换为那么序列的离散傅里叶变换为上述两条性质可以推出公式:该公式的意义是:如果将两个等长序列之间的距离定义为欧式距离,那么离散傅里叶变换就具有保距性,即变换前后两个序列之间的距离保持不变。因此,如果对频域特征序列进行降维,选择其中的f维(f<n)进行降维表示,那么降维表示后的两个序列之间的距离满足如下不等式:该不等式说明降维表示后的序列之间的距离是原序列之间距离的一种保守估计,即如果则一定有因此在做基于距离的子序列近似查询时,所有满足匹配条件的序列在基于离散傅里叶变换进行降维表示之后,仍然满足匹配条件。这个性质被用在基于频域特征的子序列检索方法中,能够保证子序列近似查询结果没有遗漏。另一方面,由于因此在对降维表示后的序列进行检索时,得到的满足匹配条件的序列还原到原空间时,不一定满足匹配条件即在检索过程中引入了虚假匹配结果,因此检索方法的最后一步往往是通过后处理过滤掉虚假匹配结果。但是如果虚假匹配结果的数量过大,会导致后处理的计算量过大,从而降低方法的性能。现实生活中遇到的信号常常可以被归类成有色噪声,有色噪声的频域能量更多地分布在低频段,因此一种常见的基于频域特征的序列降维表示方法是直接选取频域特征序列的前f维。这种基于噪声模型的方法存在的问题是:特征选择比较粗糙,且缺乏数据适应性,可能造成对原序列之间距离的过低估计,从而产生大量的虚假匹配结果,增加子序列近似查询的响应时间。频域特征序列的性质中重要的一条是:实数序列的离散傅里叶变换具有共轭对称性,即如果序列是一个实数序列,长度为N,并且是序列的离散傅里叶变换,那么X(N-m)=X*(m),m=0,1,…,N-1,其中*是共轭符号。该性质可以被用于提高降维表示后的序列之间的距离与原序列之间的距离的接近程度。例如,如果采用选取频域特征序列前f维的序列降维表示方法,得到的降维表示后的两个序列之间的距离就是而如果利用共轭对称性,在前f维的适当维度上乘以就可以在不改变原维度数量f的情况下,将降维表示后的两个序列之间的距离近似提高成
技术实现思路
本专利技术提供一种克服上述问题的一种基于频域特征的子序列检索方法和系统。根据本专利技术的一个方面,提供一种基于频域特征的子序列检索方法,包括:将滑动窗口在数据库的所有序列上依次滑动,所述滑动窗口任一次滑动获取一个与所述滑动窗口长度相等的子序列;对每一子序列进行离散傅里叶变换,获取每一子序列对应的频域特征序列,所有子序列对应的频域特征序列构成频域特征序列集合;遍历所述频域特征序列集合,基于降维规则对所述频域特征序列集合进行降维,获取基于频域特征的降维表示的序列;通过空间索引方法对所述降维表示的序列进行检索;所述遍历所述频域特征序列集合,基于降维规则对所述频域特征序列集合进行降维,获取基于频域特征的降维表示的序列之前还包括:获取所述频域特征序列集合的平均序列,所述平均序列包括与所述滑动窗口长度相等个数维度的分量;获取所述平均序列前指定维度的分量的幅值,并对所述前指定维度的分量的幅值按照数值大小进行排序,获取第一幅值集合;将所述第一幅值集合前预设个数的幅值的位置记录入幅值位置集合中。优选地,所述基于降维规则对所述频域特征序列集合进行降维进一步包括:通过如下降维规则对所述频域特征序列集合进行降维:其中,RFi,j为降维表示后的序列值,RFi,j包括R个,Fi,0为所述频域特征序列集合所包括的第i条频域特征序列中位置下标为0的元素,Pos[j]为所述幅值位置集合的第j个元素,1≤i≤R,0≤j≤f-1,f为所述预设个数,R为所述频域特征序列集合包括的频域特征序列的个数,Fi,Pos[j]为所述频域特征序列集合包括的第i条频域特征序列中位置下标为Pos[j]的元素,w为滑动窗口的长度,RFi,j的长度与f的值相等。优选地,所述指定维度通过下式获取:其中,L为指定维度,w为滑动窗口的长度,是下取整符号。优选地,通过下式获取所述频域特征序列集合的平均序列:其中,为所述频域特征序列集合的平均序列,R为所述频域特征序列集合包括的频域特征序列的个数,Fi=[Fi,0,Fi,1,…,Fi,w-1],1≤i≤R,w为滑动窗口的长度,Fi为所述频域特征序列集合中的第i个频域特征序列,Fi的长度与滑动窗口的长度相等。优选地,所述一个与所述滑动窗口长度相等的子序列通过下式表示:Si[offset:offset+w-1],1≤i≤N,0≤offset≤Len(Si)-w;其中,Si为一个与所述滑动窗口长度相等的子序列,offset为滑动窗口的移动偏置,w为滑动窗口的长度,N为数据库的序列个数,Len(Si)为一个与所述滑动窗口长度相等的子序列的长度,S[i:j]为序列S从第i维到第j维的子序列。优选地,所述数据库的每一序列的任一维度的值为实数。根据本专利技术的另一个方面,提供一种基于频域特征的子序列检索系统,包括本文档来自技高网
...

【技术保护点】
1.一种基于频域特征的子序列检索方法,其特征在于,包括:将滑动窗口在数据库的所有序列上依次滑动,所述滑动窗口任一次滑动获取一个与所述滑动窗口长度相等的子序列;对每一子序列进行离散傅里叶变换,获取每一子序列对应的频域特征序列,所有子序列对应的频域特征序列构成频域特征序列集合;遍历所述频域特征序列集合,基于降维规则对所述频域特征序列集合进行降维,获取基于频域特征的降维表示的序列;通过空间索引方法对所述降维表示的序列进行检索;所述遍历所述频域特征序列集合,基于降维规则对所述频域特征序列集合进行降维,获取基于频域特征的降维表示的序列之前还包括:获取所述频域特征序列集合的平均序列,所述平均序列包括与所述滑动窗口长度相等个数维度的分量;获取所述平均序列前指定维度的分量的幅值,并对所述前指定维度的分量的幅值按照数值大小进行排序,获取第一幅值集合;将所述第一幅值集合前预设个数的幅值的位置记录入幅值位置集合中。

【技术特征摘要】
1.一种基于频域特征的子序列检索方法,其特征在于,包括:将滑动窗口在数据库的所有序列上依次滑动,所述滑动窗口任一次滑动获取一个与所述滑动窗口长度相等的子序列;对每一子序列进行离散傅里叶变换,获取每一子序列对应的频域特征序列,所有子序列对应的频域特征序列构成频域特征序列集合;遍历所述频域特征序列集合,基于降维规则对所述频域特征序列集合进行降维,获取基于频域特征的降维表示的序列;通过空间索引方法对所述降维表示的序列进行检索;所述遍历所述频域特征序列集合,基于降维规则对所述频域特征序列集合进行降维,获取基于频域特征的降维表示的序列之前还包括:获取所述频域特征序列集合的平均序列,所述平均序列包括与所述滑动窗口长度相等个数维度的分量;获取所述平均序列前指定维度的分量的幅值,并对所述前指定维度的分量的幅值按照数值大小进行排序,获取第一幅值集合;将所述第一幅值集合前预设个数的幅值的位置记录入幅值位置集合中。2.根据权利要求1所述的检索方法,其特征在于,所述基于降维规则对所述频域特征序列集合进行降维进一步包括:通过如下降维规则对所述频域特征序列集合进行降维:其中,RFi,j为降维表示后的序列值,RFi,j包括R个,Fi,0为所述频域特征序列集合所包括的第i条频域特征序列中位置下标为0的元素,Pos[j]为所述幅值位置集合的第j个元素,1≤i≤R,0≤j≤f-1,f为所述预设个数,R为所述频域特征序列集合包括的频域特征序列的个数,Fi,Pos[j]为所述频域特征序列集合包括的第i条频域特征序列中位置下标为Pos[j]的元素,w为滑动窗口的长度,RFi,j的长度与f的值相等。3.根据权利要求1所述的检索方法,其特征在于,所述指定维度通过下式获取:其中,L为指定维度,w为滑动窗口的长度,是下取整符号。4.根据权利要求1所述的检索方法,其特征在于,通过下式获取所述频域特征序列集合的平均序列:其中...

【专利技术属性】
技术研发人员:王建民黄向东芮蕾康荣王晨
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1