一种时序数据流模式识别方法及装置制造方法及图纸

技术编号：41275646 阅读：4 留言：0更新日期：2024-05-11 09:28

本发明专利技术公开了一种时序数据流模式识别方法及装置，首先，基于二进制编码的转折模式切分数据流；然后，利用第一类切比雪夫多项式分解子序列，抽取切比雪夫特征；最后，基于增量式动态规划方法进行时序数据流模式匹配。本发明专利技术基于切比雪夫特征可对原始数据流波动形态进行准确拟合，大幅降低数据维度的同时减少信息损失，并且实现了动态时间弯曲度量在高速时序数据流上的增量式计算，因此，本发明专利技术在模式识别准确率和计算效率方面都具有显著优势。在人们的日常活动和工业生产中可发挥重要作用，如在金融交易、交通管理、气象观测、工业流程监控、医疗诊断等应用中，能够对大规模采样数据或高速动态数据流进行异常检测、风险监控、实时问答等。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大数据、数据库、数据挖掘、信息检索，具体涉及一种时序数据流模式识别方法及装置。

技术介绍

1、时序数据流广泛存在于人们日常生活及工业生产中，如基金或股票的实时交易数据、零售市场的日销量数据、工业流程传感器监测数据、天文观测数据、航空航天雷达及卫星监测数据、实时天气温度及空气质量指数等。对时序数据流的模式识别，在工业界有着广泛的应用需求。如在股票市场的实时交易中，交易员想要从高速流来的实时股票价格数据中，及时识别出与特定波动模式相似的价格子序列，作为投资参考，以尽快完成交易行为。

2、决定模式识别准确率和效率的关键因素是衡量模式相似性的距离度量方法。目前业界最常用的时间序列相似性度量方法包括锁步度量和弹性度量。前者采用了点对点的度量方式，即序列 t1和 t2之间的距离是通过严格比较 t1和 t2在各自对应位置的点对，再累加所有点对的距离得到。该类方法常见的有曼哈顿距离、欧氏距离和切比雪夫距离，它们是 l p- norms距离在 p取不同值时的特例。该类方法具有易实现、计算复杂度低、满足距离三角不等式、无参数等优点；但是，其度量精度对噪声、异常点、幅值伸缩和漂移、相位偏移等非常敏感，并且只能用于度量等长序列。弹性度量方法采用一点对多点的度量方式，即序列 t1的

技术实现思路

1、为解决现有技术的不足，实现准确识别高速时序数据流的目的，本专利技术采用如下的技术方案：

2、一种时序数据流模式识别方法，包括如下步骤：

3、（1）分段特征抽取；对数据流进行编码，并基于设定的转折模式对编码的数据流分段，对各段抽取特征，得到一组数据流特征向量序列；

4、（2）增量模式匹配；对查询序列进行所述分段特征抽取，得到查询特征向量序列，依次计算数据流特征向量与查询特征向量的距离，并构建动态规划表，基于距离最小值，在动态规划表上规划最优路径，从而在动态规划算法中实现对历史计算数据的重复利用。

5、进一步地，所述步骤（2）包括以下子步骤：

6、（2.1）对查询序列进行所述分段特征抽取，得到一组查询特征向量序列{ v1,..., v m}；

7、（2.2）设定模式匹配阈值 ε，并构建动态规划表；

8、（2.3）分别计算数据流特征向量序列{ v'1,..., v' x}与查询特征向量序列之间，任意两个特征向量的距离，并加入动态规划表的相应单元格 cell( i, j)；

9、（2.4）以单元格 cell(1, 1)作为第一条最优弯曲路径 ξ1的起始点，依次选择{ cell( v i+1, v' j), cell( v i+1, v' j+1), cell( v i, v' j+1)}中的最小值作为最优弯曲路径 ξ1的下一个路径点，直至 i= m， v i表示第 i个查询特征向量， v' j表示第 j个数据流特征向量；

10、（2.5）累加路径 ξ1的所有单元格作为查询序列与数据流的第一条子序列的距离值，若小于阈值 ε，则输出模式匹配的该数据流子序列，并以 cell(1, 2)作为第二条最优弯曲路径 ξ2的起始点；

11、（2.6）对于第 i条最优弯曲路径 ξ i，以 cell(1, i)作为起始点，循环执行步骤（2.4）至步骤（2.5），直至 i= x- m +1时停止循环， x表示数据流特征向量的数量， m表示查询特征向量的数量。

12、进一步地，所述步骤（2.3）中两个特征向量的距离为点对距离：

13、

14、其中， v表示查询特征向量， v'表示数据流特征向量， c i表示查询特征值， c' i表示数据流特征值， a表示数据流特征向量中的特征值数量。

15、进一步地，所述步骤（1）中的数据流编码过程，是基于滑动窗口依次截取数据流相邻多个元素并计算平均值，通过判断窗口内元素与平均值的大小关系对其编码，得到数据流的编码序列，本文档来自技高网...

【技术保护点】

1.一种时序数据流模式识别方法，其特征在于包括如下步骤：

2.根据权利要求1所述的一种时序数据流模式识别方法，其特征在于：所述步骤（2）包括以下子步骤：

3.根据权利要求2所述的一种时序数据流模式识别方法，其特征在于：所述步骤（2.3）中两个特征向量的距离为点对距离：

4.根据权利要求1所述的一种时序数据流模式识别方法，其特征在于：所述步骤（1）中的数据流编码过程，是基于滑动窗口依次截取数据流相邻多个元素并计算平均值，通过判断窗口内元素与平均值的大小关系对其编码，得到数据流的编码序列，并根据编码定义转折模式。

5.根据权利要求4所述的一种时序数据流模式识别方法，其特征在于：在所述滑动窗口依次截取数据流前，对数据流进行平滑处理：依次计算时序数据流相邻多个元素的平均值，对其做移动平滑处理，将得到的平滑数据流用于数据流分段。

6.根据权利要求1所述的一种时序数据流模式识别方法，其特征在于：所述步骤（1）中的数据流分段，是通过顺序扫描编码序列，针对相邻多个编码组合依次匹配转折模式，基于匹配的转折模式，对编码序列进行分段。

...

【技术特征摘要】

1.一种时序数据流模式识别方法，其特征在于包括如下步骤：

2.根据权利要求1所述的一种时序数据流模式识别方法，其特征在于：所述步骤（2）包括以下子步骤：

3.根据权利要求2所述的一种时序数据流模式识别方法，其特征在于：所述步骤（2.3）中两个特征向量的距离为点对距离：

6.根据权利要求1所述的一种时序数据流模式识别方法，其特征在于：所述步骤（1）中的数据流分段，是通过顺序扫描编码序列，针对相邻多个编...

【专利技术属性】
技术研发人员：蔡青林，徐华昕，邵健，鲁伟明，陈岭，
申请(专利权)人：东海实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人