【技术实现步骤摘要】
一种时间序列降维表示方法及系统
[0001]本申请涉及数据库
,具体涉及一种时间序列降维表示方法及系统。
技术介绍
[0002]时间序列数据在几乎所有人类活动中都是普遍存在的,包括临床医学生命体征记录仪器、金融业股票期货的实时交易数据、电子商务零售市场的销量数据、天文观测数据和实时天气温度等领域。
[0003]近几年来,随着数据中心、物联网等新兴应用的普及,时间序列数据的规模也在不断扩大。很多实时应用产生了上千万甚至亿级别的时间序列数据,存储规模也都达到了TB或PB级。
[0004]时间序列相似性查询。时间序列相似性查询是时间序列挖掘领域的一个重要研究方向。时间序列相似性查询是指在一个时间序列数据集上,根据某种相似性度量函数,寻找与给定时间序列最相似的目标序列集合。时间序列相似性查询是时间序列聚类、分类、异常检测、频繁模式挖掘的基础前置工作。时间序列的相似性查询可分为全序列匹配和子序列匹配两大类。其中全序列匹配是指查找的时间序列与目标序列具有相同的长度。而子序列匹配则是指在一个更长的序列中,找出与目标序列相似的所有子序列。
[0005]由于时间序列都具有较高的维度,直接在原始数据上进行处理的代价是非常大的。因此,一个普遍的做法是对时间序列数据进行数据或维度的规约和变换,数据被映射到变换后的空间中,并保留一小组“最强的”变换后的系数作为特征/表示。由于新的空间的维度相对比较低,这类维度规约方法被称为时间序列降维表示技术。
技术实现思路
[0006]本申请旨在解决现有技术的不 ...
【技术保护点】
【技术特征摘要】
1.一种时间序列降维表示方法,其特征在于,包括以下步骤:遍历时间序列,识别所述时间序列的顶底特征;基于所述顶底特征将所述时间序列分割为若干简化线段,并记录若干所述简化线段的始末点;基于所述始末点,计算若干所述简化曲线的特征值;分别计算所述简化线段与相邻段的所述特征值的差距,若所述差距小于预设阈值,则合并所述线段与所述相邻段,完成降维表示。2.根据权利要求1所述一种时间序列降维表示方法,其特征在于,识别所述顶底特征的方法包括:判断所述时间序列的拐点的个数,若所述拐点的个数不小于5个时,记录为第一曲线;若所述第一曲线中,存在第一拐点高于与所述第一拐点相邻的第一相邻点和第二相邻点,且所述第一相邻点高于另一侧与所述第一相邻点相邻的第三相邻点,所述第二相邻点高于另一侧与所述第二相邻点相邻的第四相邻点,则所述第一曲线记为顶特征,所述第一拐点记为顶点;若所述第一曲线中,存在第二拐点低于与所述第二拐点相邻的第五相邻点和第六相邻点,且所述第五相邻点低于另一侧与所述第五相邻点相邻的第七相邻点,所述第六相邻点低于另一侧与所述第六相邻点相邻的第八相邻点,则所述第一曲线记为底特征,所述第二拐点记为底点。3.根据权利要求2所述一种时间序列降维表示方法,其特征在于,所述始末点的记录方法包括:当所述简化线段为下降线段时,以所述顶点为始点并记录所述顶点的顶点坐标,所述底点为末点并记录所述底点的底点坐标,将所述顶点坐标和所述底点坐标整合为数据对,存入链表;当所述简化线段为上升线段时,以所述底点为始点并记录所述底点的底点坐标,所述顶点为末点并记录所述顶点的顶点坐标,将所述顶点坐标和所述底点坐标整合为数据对,存入链表。4.根据权利要求3所述一种时间序列降维表示方法,其特征在于,所述特征值包括:所述简化线段的斜率K,所述简化线段的标准差σ2,所述简化线段的均值μ,所述始点的高度ym1,所述末点的高度ym2。5.根据权利要求4所述一种时间序列降维表示方法,其特征在于,所述差距的计算和比较方法包括:其中,k
m
为简化线段m的斜率,σ
2m
为简化线段m的标准差,μ
m
为简化线段m的均值,k
n
为简化线段n的斜率,σ
2n
为简化线段n的标准差,μ
n
为简化线段n的均值,∈
k
为斜率的预设阈值,为标准差的预设阈值,∈
μ
为均值的预设阈值。6.一种时间序列降维表示系统,其特征在于,包括:识别模块、简化模块、计算...
【专利技术属性】
技术研发人员:史晓贤,周同明,王秦,马振武,魏媛媛,赵春海,赵春阁,成怡,马坤,汪卫,
申请(专利权)人:济南永信新材料科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。