一种基于关键点的数据序列线性拟合方法技术

技术编号:3980092 阅读:238 留言:0更新日期:2012-04-11 18:40
一种基于关键点的数据序列线性拟合方法,利用自定义的中线距离阈值和非单调序列中极值点保持时间段阈值两个约束条件,仅需一次扫描序列数据集,就可以保留非单调序列中重要的极值点,并根据单调序列中三个连续数据点形成的三角形中线长度判断中间数据点是否为需要保留的关键点;在方法实现过程中仅保留反映数据序列变化模式的主要关键点,极大减少了数据存储量,提高了计算速度;理论分析与实验结果表明,与以往方法相比较,本发明专利技术提供的方法能够更加高效选择关键点,在较高压缩率的情况下仍能保持原数据序列的变化趋势,精确定位序列中的突变点。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
时间序列作为一种重要的按照时间先后顺序排列的数据对象,广泛存在于经济、 科学、工业等众多领域。如何分析和处理这些海量的时间序列数据,并从中发现一些事先未 知的、有价值的信息,正受到越来越多研究者的关注和重视。由于这些海量数据序列具有短 期波动频繁、大量噪声干扰以及非稳态等特点,直接在原始时间序列上进行相似性查询、分 类和聚类、模式挖掘等工作不但存储和计算效率低下,而且影响了方法的准确性和可靠性, 难以获得满意结果。关于数据序列分段线性表示方法是一种简单直观的序列模式表示方法,采用首尾 相邻的一系列线段近似表示时间序列,压缩原始序列,换取更小的存储和计算代价,在保留 时间序列主要形态的同时去除了细节干扰,更能反映时间序列的变化模式。一种方法是通 过抽取非单调序列中的极值点划分数据序列,但保留了大量未过滤的细节变化,降低了压 缩精度。另一种方法尽管在选择极值点的过程中考虑了噪音处理,但无法及时捕获单调序 列中的变化转折点,不能有效发现尖峰子序列,然而这些往往是序列分段拟合的关键。极值点拟合法(IPSegmentation)是一种常用的非单调序列极值点选择方法。该 方法利用序列数据的单调变化属性抽取其中重要的特征数据,实现序列的线性分段拟合。 对于数据序列X = <x1; X2, ... , Xh, Xi, xi+1, . . . , xn> (0 < i ≤ η),如果X满足条件X1≤X2≤.· · ( Xh≤Xi且Xi≥xi+1 D Xn≥1≥Xn,或者 Xl≥Xg≥· · · ≤ Xi-I ≤ Xi "S* Xi ≤ Xi+1 ≤ · · · ^即数据序列集X的单调性在数据点Xi发生变化,则Xi作为极值点保留。例如给 定一个数据序列X = <4,5,8,8,8,8,9,11,8,4,3,7,10>,根据极值点拟合法,可用Xs = 4, 5,8,8,8,8,9,11>,<8,4,3>,<7,10 分段线性表示。这种线性的极值点拟合方法尽管方法简单,运算效率高,较好地保留了原始时间 序列的变化模式,但不能有效地去除噪音,保留了大量未过滤的细节变化,从而降低了压缩 精度。而夹角法则是利用阈值ε作为选择转折点的判断依据,当数据序列中的某个数 据点Xi与前后数据Xh、xi+1平均值的距离<formula>formula see original document page 4</formula>则可确定Xi为转折点,式中,ε >0为可调节的自定义中线距离阈值。如图1和图2所示,图1和图2是三个连续数据点形成的数据子序列为单调的 突变序列时的示意图及其拟合效果图。当三个连续数据点形成的数据子序列为单调的突变序列时(如图1所示),夹角法的拟合效果优于极值法根据自定义的中线距离阈值,夹 角法能够及时准确地发现转折点Xi ;但由于数据序列Xh,Xi, xi+1为单调序列(这里Xp1 =Xi < xi+1),因此极值法无法发现序列中的转折点Xi,因此序列拟合结果为图2中的线段 Xi_lXi+1,过滤了转折点Xi。而在实际应用中,突变序列中的转折点往往是数据分析处理的关 键所在,如数据序列中的异常检测,石油工业领域的地层序列精确划分等
技术实现思路
本专利技术的目的是提供 (KPSegmentation, key points segmentation),是将极值法与夹角法进行结合而得到的一 种方法,该方法能够在较高压缩率的情况下更好地线性拟合数据序列,利用自定义的中线 距离阈值和非单调序列中极值点保持时间段阈值两个约束条件,保留非单调序列中重要的 极值点,并根据单调序列中三个连续数据点形成的三角形中线长度判断中间数据点是否为 需要保留的关键点。为了实现上述目的,本专利技术提供,包含 以下步骤步骤1、定义数据序列集X及参数中线距离阈值ε和极值点保持时间段阈值C(C =1,2,...,η);数据序列集为Χ= <x1 x2, ... , Xi, ... , xn>(0 < i < η),所述的中线距离阈值ε >0,其为用户可调节的自定义距离阈值;步骤2、对各数据点进行极值点与转折点的判别,保存数据序列中的各极值点与各 转折点;步骤2. 1、定义极值点初始集合Xie和转折点集合ΧΤ,将数据序列集X的第一个数 据点X1放入极值点初始集合Xie ;步骤2.2、取i = 2;步骤2. 3、i++,0 < i < η ;步骤2.4、判断i是否在闭区间内,若是,则跳转到步骤2. 4,若否,则跳转 到步骤2. 2 ;步骤2. 5、判断数据点Xi是否满足极值点和转折点条件条件一Xi > Xh 且 Xi > xi+1 ;条件二=Xi < Xh 且 Xi < xi+1 ;条件三数据点Xi与前后数据Xh、xi+1平均值的距离<formula>formula see original document page 5</formula>若满足条件一或条件二,则将该数据点Xi放入极值点初始集合ΧΙΕ,即保存该极值 点,并跳转到步骤2. 3;若满足条件三,则将该数据点Xi放入转折点集合ΧΤ,即保存该转折点,并跳转到步 骤 2. 3 ;若都不满足条件一、条件二和条件三,则跳转到步骤2. 3 ;步骤2. 6、将数据序列集X的最后一个数据点Xn放入极值点初始集合XIE,并记录 放入极值点初始集合Xie内的数据点的个数m ;步骤3、扫描整个数据序列集并过滤数据序列中的噪音干扰;步骤3. 1、定义极值点集合XE,将极值点初始集合Xie的第一个数据点X1放入极值 点集合Xe;步骤3.2、取i = 2;步骤 3. 3、i++,0 < i < m ;步骤3.4、判断i是否在闭区间内,若是,则跳转到步骤3. 5,若否,则跳转 到步骤3. 3 ;步骤3. 5、判断极值点初始集合Xie中的数据点Xi保持的时间段Txi是否小于极值 点保持时间段阈值C,若是,则将该数据点Xi放入极值点集合XE,并跳转到步骤3. 3;若否, 则视该数据点Xi为噪音干扰,将其过滤,并跳转到步骤3. 3 ;步骤4、将过滤后的极值点与转折点拟合得到该数据序列的关键点输出,输出的作 为序列分段拟合的关键点序列定义为χκ,其为过滤后的极值点集合Xe和转折点集合Xt拟合 后得到的,即Xk — Xt U Xe本专利技术与现有技术相比,其优点在于本专利技术利用自定义的中线距离阈值和非单 调序列中极值点保持时间段阈值两个约束条件,仅需一次扫描序列数据集,就可以保留非 单调序列中重要的极值点,并根据单调序列中三个连续数据点形成的三角形中线长度判断 中间数据点是否为需要保留的关键点;在方法实现过程中仅保留反映数据序列变化模式的 主要关键点,极大减少了数据存储量,提高了计算速度;理论分析与实验结果表明,与以往 方法相比较,本专利技术提供的方法能够更加高效选择关键点,在较高压缩率的情况下仍能保 持原数据序列的变化趋势,精确定位序列中的突变点。附图说明图1是三个连续数据点形成的数据子序列为单调的突变序列时的示意图本文档来自技高网
...

【技术保护点】
一种基于关键点的数据序列线性拟合方法,其特征在于,包含以下步骤:步骤1、定义数据序列集X及参数中线距离阈值ε和极值点保持时间段阈值C(C=1,2,...,n);步骤2、对各数据点进行极值点与转折点的判别,保存数据序列中的各极值点与各转折点;步骤3、扫描整个数据序列集并过滤数据序列中的噪音干扰;步骤4、将过滤后的极值点与转折点拟合得到该数据序列的关键点输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:杜奕
申请(专利权)人:上海第二工业大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1