System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种时序数据流模式识别方法及装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>东海实验室专利>正文

一种时序数据流模式识别方法及装置制造方法及图纸

技术编号:41275646 阅读:4 留言:0更新日期:2024-05-11 09:28
本发明专利技术公开了一种时序数据流模式识别方法及装置,首先,基于二进制编码的转折模式切分数据流;然后,利用第一类切比雪夫多项式分解子序列,抽取切比雪夫特征;最后,基于增量式动态规划方法进行时序数据流模式匹配。本发明专利技术基于切比雪夫特征可对原始数据流波动形态进行准确拟合,大幅降低数据维度的同时减少信息损失,并且实现了动态时间弯曲度量在高速时序数据流上的增量式计算,因此,本发明专利技术在模式识别准确率和计算效率方面都具有显著优势。在人们的日常活动和工业生产中可发挥重要作用,如在金融交易、交通管理、气象观测、工业流程监控、医疗诊断等应用中,能够对大规模采样数据或高速动态数据流进行异常检测、风险监控、实时问答等。

【技术实现步骤摘要】

本专利技术属于大数据、数据库、数据挖掘、信息检索,具体涉及一种时序数据流模式识别方法及装置


技术介绍

1、时序数据流广泛存在于人们日常生活及工业生产中,如基金或股票的实时交易数据、零售市场的日销量数据、工业流程传感器监测数据、天文观测数据、航空航天雷达及卫星监测数据、实时天气温度及空气质量指数等。对时序数据流的模式识别,在工业界有着广泛的应用需求。如在股票市场的实时交易中,交易员想要从高速流来的实时股票价格数据中,及时识别出与特定波动模式相似的价格子序列,作为投资参考,以尽快完成交易行为。

2、决定模式识别准确率和效率的关键因素是衡量模式相似性的距离度量方法。目前业界最常用的时间序列相似性度量方法包括锁步度量和弹性度量。前者采用了点对点的度量方式,即序列 t1和 t2之间的距离是通过严格比较 t1和 t2在各自对应位置的点对,再累加所有点对的距离得到。该类方法常见的有曼哈顿距离、欧氏距离和切比雪夫距离,它们是 l p- norms距离在 p取不同值时的特例。该类方法具有易实现、计算复杂度低、满足距离三角不等式、无参数等优点;但是,其度量精度对噪声、异常点、幅值伸缩和漂移、相位偏移等非常敏感,并且只能用于度量等长序列。弹性度量方法采用一点对多点的度量方式,即序列 t1的一个点可以与 t2的多个连续点相对应,通过动态规划方法遍历 t1和 t2的所有点对之间的距离。该类方法最常见的有动态时间弯曲距离(dtw)和编辑距离的变种(如lcss、edr、erp)等。与锁步度量相比,弹性度量能够实现两条序列的最佳对齐匹配,可以有效处理时间弯曲、相位偏移、幅值伸缩和漂移等基本形态变化,对噪声和异常点具有鲁棒性,因此,弹性度量具有较高的度量精度。但是,该类方法具有较高的计算复杂度,当度量高维序列时会导致高昂的时间开销,难以在现实应用中处理高速时序数据流。


技术实现思路

1、为解决现有技术的不足,实现准确识别高速时序数据流的目的,本专利技术采用如下的技术方案:

2、一种时序数据流模式识别方法,包括如下步骤:

3、(1)分段特征抽取;对数据流进行编码,并基于设定的转折模式对编码的数据流分段,对各段抽取特征,得到一组数据流特征向量序列;

4、(2)增量模式匹配;对查询序列进行所述分段特征抽取,得到查询特征向量序列,依次计算数据流特征向量与查询特征向量的距离,并构建动态规划表,基于距离最小值,在动态规划表上规划最优路径,从而在动态规划算法中实现对历史计算数据的重复利用。

5、进一步地,所述步骤(2)包括以下子步骤:

6、(2.1)对查询序列进行所述分段特征抽取,得到一组查询特征向量序列{ v1,..., v m};

7、(2.2)设定模式匹配阈值 ε,并构建动态规划表;

8、(2.3)分别计算数据流特征向量序列{ v'1,..., v' x}与查询特征向量序列之间,任意两个特征向量的距离,并加入动态规划表的相应单元格 cell( i, j);

9、(2.4)以单元格 cell(1, 1)作为第一条最优弯曲路径 ξ1的起始点,依次选择{ cell( v i+1, v' j), cell( v i+1, v' j+1), cell( v i, v' j+1)}中的最小值作为最优弯曲路径 ξ1的下一个路径点,直至 i= m, v i表示第 i个查询特征向量, v' j表示第 j个数据流特征向量;

10、(2.5)累加路径 ξ1的所有单元格作为查询序列与数据流的第一条子序列的距离值,若小于阈值 ε,则输出模式匹配的该数据流子序列,并以 cell(1, 2)作为第二条最优弯曲路径 ξ2的起始点;

11、(2.6)对于第 i条最优弯曲路径 ξ i,以 cell(1, i)作为起始点,循环执行步骤(2.4)至步骤(2.5),直至 i= x- m +1时停止循环, x表示数据流特征向量的数量, m表示查询特征向量的数量。

12、进一步地,所述步骤(2.3)中两个特征向量的距离为点对距离:

13、

14、其中, v表示查询特征向量, v'表示数据流特征向量, c i表示查询特征值, c' i表示数据流特征值, a表示数据流特征向量中的特征值数量。

15、进一步地,所述步骤(1)中的数据流编码过程,是基于滑动窗口依次截取数据流相邻多个元素并计算平均值,通过判断窗口内元素与平均值的大小关系对其编码,得到数据流的编码序列,本文档来自技高网...

【技术保护点】

1.一种时序数据流模式识别方法,其特征在于包括如下步骤:

2.根据权利要求1所述的一种时序数据流模式识别方法,其特征在于:所述步骤(2)包括以下子步骤:

3.根据权利要求2所述的一种时序数据流模式识别方法,其特征在于:所述步骤(2.3)中两个特征向量的距离为点对距离:

4.根据权利要求1所述的一种时序数据流模式识别方法,其特征在于:所述步骤(1)中的数据流编码过程,是基于滑动窗口依次截取数据流相邻多个元素并计算平均值,通过判断窗口内元素与平均值的大小关系对其编码,得到数据流的编码序列,并根据编码定义转折模式。

5.根据权利要求4所述的一种时序数据流模式识别方法,其特征在于:在所述滑动窗口依次截取数据流前,对数据流进行平滑处理:依次计算时序数据流相邻多个元素的平均值,对其做移动平滑处理,将得到的平滑数据流用于数据流分段。

6.根据权利要求1所述的一种时序数据流模式识别方法,其特征在于:所述步骤(1)中的数据流分段,是通过顺序扫描编码序列,针对相邻多个编码组合依次匹配转折模式,基于匹配的转折模式,对编码序列进行分段。

7.根据权利要求1所述的一种时序数据流模式识别方法,其特征在于:所述步骤(1)中对各段抽取特征,是对相邻分段点之间的子序列做切比雪夫因式分解,抽取切比雪夫系数特征,将编码序列转化为数据流特征向量序列。

8.根据权利要求7所述的一种时序数据流模式识别方法,其特征在于:所述对各段抽取特征前,先对相邻分段点之间的子序列计算元素平均值msi和标准差σsi,根据平均值msi和标准差σsi对Si做Z-规范化处理:

9.根据权利要求5所述的一种时序数据流模式识别方法,其特征在于:所述切比雪夫因式分解中,抽取最大的前a个切比雪夫系数ci作为特征,构造特征向量V'i = [c1, c2, ...,ca];

10.一种时序数据流模式识别装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-9中任一项所述的一种时序数据流模式识别方法。

...

【技术特征摘要】

1.一种时序数据流模式识别方法,其特征在于包括如下步骤:

2.根据权利要求1所述的一种时序数据流模式识别方法,其特征在于:所述步骤(2)包括以下子步骤:

3.根据权利要求2所述的一种时序数据流模式识别方法,其特征在于:所述步骤(2.3)中两个特征向量的距离为点对距离:

4.根据权利要求1所述的一种时序数据流模式识别方法,其特征在于:所述步骤(1)中的数据流编码过程,是基于滑动窗口依次截取数据流相邻多个元素并计算平均值,通过判断窗口内元素与平均值的大小关系对其编码,得到数据流的编码序列,并根据编码定义转折模式。

5.根据权利要求4所述的一种时序数据流模式识别方法,其特征在于:在所述滑动窗口依次截取数据流前,对数据流进行平滑处理:依次计算时序数据流相邻多个元素的平均值,对其做移动平滑处理,将得到的平滑数据流用于数据流分段。

6.根据权利要求1所述的一种时序数据流模式识别方法,其特征在于:所述步骤(1)中的数据流分段,是通过顺序扫描编码序列,针对相邻多个编...

【专利技术属性】
技术研发人员:蔡青林徐华昕邵健鲁伟明陈岭
申请(专利权)人:东海实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1