一种时间序列降维表示方法及系统技术方案

技术编号:38125615 阅读:13 留言:0更新日期:2023-07-08 09:29
本申请公开了一种时间序列降维表示方法及系统,其中方法包括以下步骤:遍历时间序列,识别所述时间序列的顶底特征;基于所述顶底特征将所述时间序列分割为若干简化线段,并记录若干所述简化线段的始末点;基于所述始末点,计算若干所述简化曲线的特征值;分别计算所述简化线段与相邻段的所述特征值的差距,若所述差距小于预设阈值,则合并所述线段与所述相邻段,完成降维表示。通过本申请的降维方式,可以针对存在大量漂移、扭曲、波动、异常点、拉升、压缩的时间序列,有效保证时间序列特征的情况下,完成对变长变幅时间序列的降维工作。完成对变长变幅时间序列的降维工作。完成对变长变幅时间序列的降维工作。

【技术实现步骤摘要】
一种时间序列降维表示方法及系统


[0001]本申请涉及数据库
,具体涉及一种时间序列降维表示方法及系统。

技术介绍

[0002]时间序列数据在几乎所有人类活动中都是普遍存在的,包括临床医学生命体征记录仪器、金融业股票期货的实时交易数据、电子商务零售市场的销量数据、天文观测数据和实时天气温度等领域。
[0003]近几年来,随着数据中心、物联网等新兴应用的普及,时间序列数据的规模也在不断扩大。很多实时应用产生了上千万甚至亿级别的时间序列数据,存储规模也都达到了TB或PB级。
[0004]时间序列相似性查询。时间序列相似性查询是时间序列挖掘领域的一个重要研究方向。时间序列相似性查询是指在一个时间序列数据集上,根据某种相似性度量函数,寻找与给定时间序列最相似的目标序列集合。时间序列相似性查询是时间序列聚类、分类、异常检测、频繁模式挖掘的基础前置工作。时间序列的相似性查询可分为全序列匹配和子序列匹配两大类。其中全序列匹配是指查找的时间序列与目标序列具有相同的长度。而子序列匹配则是指在一个更长的序列中,找出与目标序列相似的所有子序列。
[0005]由于时间序列都具有较高的维度,直接在原始数据上进行处理的代价是非常大的。因此,一个普遍的做法是对时间序列数据进行数据或维度的规约和变换,数据被映射到变换后的空间中,并保留一小组“最强的”变换后的系数作为特征/表示。由于新的空间的维度相对比较低,这类维度规约方法被称为时间序列降维表示技术。

技术实现思路

[0006]本申请旨在解决现有技术的不足,提出一种时间序列降维表示方法及系统,过去常用的时间序列降维表示方法,在时间序列数据中存在大量漂移、扭曲、波动、异常点、拉升、压缩的情况下,对相似的时间序列查询产生了困难,常常会丢失信息,或者引入大量噪声,不能很好地完成对变长变幅时间序列的降维工作,从而导致后续时间序列相似性度量时产生大量的误差。
[0007]为实现上述目的,本申请提供了如下方案:
[0008]一种时间序列降维表示方法,包括以下步骤:
[0009]遍历时间序列,识别所述时间序列的顶底特征;
[0010]基于所述顶底特征将所述时间序列分割为若干简化线段,并记录若干所述简化线段的始末点;
[0011]基于所述始末点,计算若干所述简化曲线的特征值;
[0012]分别计算所述简化线段与相邻段的所述特征值的差距,若所述差距小于预设阈值,则合并所述线段与所述相邻段,完成降维表示。
[0013]优选的,识别所述顶底特征的方法包括:
[0014]判断所述时间序列的拐点的个数,若所述拐点的个数不小于5个时,记录为第一曲线;
[0015]若所述第一曲线中,存在第一拐点高于与所述第一拐点相邻的第一相邻点和第二相邻点,且所述第一相邻点高于另一侧与所述第一相邻点相邻的第三相邻点,所述第二相邻点高于另一侧与所述第二相邻点相邻的第四相邻点,则所述第一曲线记为顶特征,所述第一拐点记为顶点;
[0016]若所述第一曲线中,存在第二拐点低于与所述第二拐点相邻的第五相邻点和第六相邻点,且所述第五相邻点低于另一侧与所述第五相邻点相邻的第七相邻点,所述第六相邻点低于另一侧与所述第六相邻点相邻的第八相邻点,则所述第一曲线记为底特征,所述第二拐点记为底点。
[0017]优选的,所述始末点的记录方法包括:
[0018]当所述简化线段为下降线段时,以所述顶点为始点并记录所述顶点的顶点坐标,所述底点为末点并记录所述底点的底点坐标,将所述顶点坐标和所述底点坐标整合为数据对,存入链表;
[0019]当所述简化线段为上升线段时,以所述底点为始点并记录所述底点的底点坐标,所述顶点为末点并记录所述顶点的顶点坐标,将所述顶点坐标和所述底点坐标整合为数据对,存入链表。
[0020]优选的,所述特征值包括:所述简化线段的斜率K,所述简化线段的标准差σ2,所述简化线段的均值μ,所述始点的高度ym1,所述末点的高度ym2。
[0021]优选的,所述差距的计算和比较方法包括:
[0022][0023]其中,k
m
为简化线段m的斜率,σ
2m
为简化线段m的标准差,μ
m
为简化线段m的均值,k
n
为简化线段n的斜率,σ
2n
为简化线段n的标准差,μ
n
为简化线段n的均值,∈
k
为斜率的预设阈值,为标准差的预设阈值,∈
μ
为均值的预设阈值。
[0024]本申请还提供了一种时间序列降维表示系统,包括:识别模块、简化模块、计算模块和比较模块;
[0025]所述识别模块用于遍历时间序列,识别所述时间序列的顶底特征;
[0026]所述简化模块用于基于所述顶底特征将所述时间序列分割为若干简化线段,并记录若干所述简化线段的始末点;
[0027]所述计算模块用于基于所述始末点,计算若干所述简化曲线的特征值;
[0028]所述比较模块用于分别计算所述简化线段与相邻段的所述特征值的差距,若所述差距小于预设阈值,则合并所述线段与所述相邻段,完成降维表示。
[0029]优选的,识别模块的工作流程包括:
[0030]判断所述时间序列的拐点的个数,若所述拐点的个数不小于5个时,记录为第一曲线;
[0031]若所述第一曲线中,存在第一拐点高于与所述第一拐点相邻的第一相邻点和第二
相邻点,且所述第一相邻点高于另一侧与所述第一相邻点相邻的第三相邻点,所述第二相邻点高于另一侧与所述第二相邻点相邻的第四相邻点,则所述第一曲线记为顶特征,所述第一拐点记为顶点;
[0032]若所述第一曲线中,存在第二拐点低于与所述第二拐点相邻的第五相邻点和第六相邻点,且所述第五相邻点低于另一侧与所述第五相邻点相邻的第七相邻点,所述第六相邻点低于另一侧与所述第六相邻点相邻的第八相邻点,则所述第一曲线记为底特征,所述第二拐点记为底点。
[0033]优选的,所述简化模块对所述始末点的记录方法包括:
[0034]当所述简化线段为下降线段时,以所述顶点为始点并记录所述顶点的顶点坐标,所述底点为末点并记录所述底点的底点坐标,将所述顶点坐标和所述底点坐标整合为数据对,存入链表;
[0035]当所述简化线段为上升线段时,以所述底点为始点并记录所述底点的底点坐标,所述顶点为末点并记录所述顶点的顶点坐标,将所述顶点坐标和所述底点坐标整合为数据对,存入链表。
[0036]优选的,所述特征值包括:所述简化线段的斜率K,所述简化线段的标准差σ2,所述简化线段的均值μ,所述始点的高度ym1,所述末点的高度ym2。
[0037]优选的,所述比较模块对差距的计算和比较方法包括:
[0038][0039]其中,k
m
为简化线段m的斜率,σ
2m
为简化线段m的标准差,μ
m
为简化线段m的均值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时间序列降维表示方法,其特征在于,包括以下步骤:遍历时间序列,识别所述时间序列的顶底特征;基于所述顶底特征将所述时间序列分割为若干简化线段,并记录若干所述简化线段的始末点;基于所述始末点,计算若干所述简化曲线的特征值;分别计算所述简化线段与相邻段的所述特征值的差距,若所述差距小于预设阈值,则合并所述线段与所述相邻段,完成降维表示。2.根据权利要求1所述一种时间序列降维表示方法,其特征在于,识别所述顶底特征的方法包括:判断所述时间序列的拐点的个数,若所述拐点的个数不小于5个时,记录为第一曲线;若所述第一曲线中,存在第一拐点高于与所述第一拐点相邻的第一相邻点和第二相邻点,且所述第一相邻点高于另一侧与所述第一相邻点相邻的第三相邻点,所述第二相邻点高于另一侧与所述第二相邻点相邻的第四相邻点,则所述第一曲线记为顶特征,所述第一拐点记为顶点;若所述第一曲线中,存在第二拐点低于与所述第二拐点相邻的第五相邻点和第六相邻点,且所述第五相邻点低于另一侧与所述第五相邻点相邻的第七相邻点,所述第六相邻点低于另一侧与所述第六相邻点相邻的第八相邻点,则所述第一曲线记为底特征,所述第二拐点记为底点。3.根据权利要求2所述一种时间序列降维表示方法,其特征在于,所述始末点的记录方法包括:当所述简化线段为下降线段时,以所述顶点为始点并记录所述顶点的顶点坐标,所述底点为末点并记录所述底点的底点坐标,将所述顶点坐标和所述底点坐标整合为数据对,存入链表;当所述简化线段为上升线段时,以所述底点为始点并记录所述底点的底点坐标,所述顶点为末点并记录所述顶点的顶点坐标,将所述顶点坐标和所述底点坐标整合为数据对,存入链表。4.根据权利要求3所述一种时间序列降维表示方法,其特征在于,所述特征值包括:所述简化线段的斜率K,所述简化线段的标准差σ2,所述简化线段的均值μ,所述始点的高度ym1,所述末点的高度ym2。5.根据权利要求4所述一种时间序列降维表示方法,其特征在于,所述差距的计算和比较方法包括:其中,k
m
为简化线段m的斜率,σ
2m
为简化线段m的标准差,μ
m
为简化线段m的均值,k
n
为简化线段n的斜率,σ
2n
为简化线段n的标准差,μ
n
为简化线段n的均值,∈
k
为斜率的预设阈值,为标准差的预设阈值,∈
μ
为均值的预设阈值。6.一种时间序列降维表示系统,其特征在于,包括:识别模块、简化模块、计算...

【专利技术属性】
技术研发人员:史晓贤周同明王秦马振武魏媛媛赵春海赵春阁成怡马坤汪卫
申请(专利权)人:济南永信新材料科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1