当前位置: 首页 > 专利查询>清华大学专利>正文

基于近邻的时间序列数据修复方法及装置制造方法及图纸

技术编号:18783814 阅读:100 留言:0更新日期:2018-08-29 06:58
本发明专利技术提供一种基于近邻的时间序列数据修复方法及装置,所述方法包括:获取待修复时序数据中包含异常数据点的子序列,并删除所述子序列中的所述异常数据点,得到匹配序列;计算预设时序数据集中每个时序数据与所述匹配序列之间的相似度,并按照相似度由大到小的顺序获取多个时序数据,作为多个候选时序数据;基于所有候选时序数据,获取所述异常数据点的修复值。本发明专利技术提供的基于近邻的时间序列数据修复方法及装置,基于近邻算法,获取与待修复子序列相似度最高的多个候选时序数据,并从多个候选时序数据中选择与异常数据点的数据值偏差最小的数据值作为修复值,从而提高了修复精度和修复效率。

【技术实现步骤摘要】
基于近邻的时间序列数据修复方法及装置
本专利技术涉及计算机
,尤其涉及一种基于近邻的时间序列数据修复方法及装置。
技术介绍
如今信息技术发展迅速,存储的数据类型多种多样,其中时间序列数据(简称时序数据或时间序列)呈现出了指数级的增长。时间序列作为一种常见而且重要的数据类型,数据主要来自于传感器数据、金融股票数据、全球定位系统(GPS)数据等等,主要特点是数值按照时间先后顺序排列而成。时间序列数据分析是目前最具有研究意义的问题之一。然而,在实际应用中,由于时间序列获取设备的特殊性,比如传感器在室外可能因为外界环境的变化,使得获得的数据存在异常值,比如采集到的数据点的数据值会突然变大或者变小,并且变化范围超出了数据值所在的正常范围。由于时间序列的数据质量会对后续进行的数据分析产生十分重要的影响,所以,如何对时间序列异常数据进行修复是一个非常重要的技术问题,具有十分重要的应用价值。现有技术中,对时序数据的修复方法主要分为两类,第一类主要是利用整个时序数据的平均值、中位数、总数等去修复。这种修复方法在异常数据量较大或者是在整个序列数据变化幅度比较大的情况下,修复的值相比于真实值精确度很低。第二类是通过构建算法模型去预测异常数据点的时间戳的数据,然后计算该异常数据点的数据值的预测值,根据预测值对相应的异常数据点的数据值进行修复。这种方法时间复杂度较高,只适用于小数据集,修复数据消耗时间太长,修复效率低。
技术实现思路
本专利技术的目的是提供一种基于近邻的时间序列数据修复方法及装置,解决了现有技术中的数据修复方法修复精度低,以及修复效率低的技术问题。为了解决上述技术问题,一方面,本专利技术提供一种基于近邻的时间序列数据修复方法,包括:获取待修复时序数据中包含异常数据点的子序列,并删除所述子序列中的所述异常数据点,得到匹配序列;计算预设时序数据集中每个时序数据与所述匹配序列之间的相似度,并按照相似度由大到小的顺序获取多个时序数据,作为多个候选时序数据;基于所有候选时序数据,获取所述异常数据点的修复值。进一步地,所述基于所有候选时序数据,获取所述异常数据点的修复值,具体为:计算每一候选时序数据中目标数据点的数据值与所述异常数据点的数据值之差的绝对值,并作为每一目标数据点的数据值对应的第一绝对值,所述目标数据点为与所述异常数据点的时间戳相同的数据点;将最小的第一绝对值对应的目标数据点的数据值作为所述异常数据点的数据值的修复值。进一步地,所述获取待修复时序数据中包含异常数据点的子序列,具体为:获取待修复时序数据中的异常数据点;基于所述异常数据点,获取所述待修复时序数据中包含异常数据点的子序列。进一步地,所述获取待修复时序数据中的异常数据点,具体为:基于预设的自回归模型,获取待修复时序数据中每一数据点的数据值的预测值;计算所述待修复时序数据中每一数据点的数据值与预测值之差的绝对值,并作为所述待修复时序数据中每一数据点对应的第二绝对值;将大于第一预设值的第二绝对值所对应的数据点作为异常数据点。进一步地,所述预设的自回归模型为:其中,vj'为数据点pj的数据值vj的预测值,c为常数,p为预设正整数,为自相关系数,vj-i为数据点pj-i的数据值,εj为预设随机误差值。进一步地,所述计算预设时序数据集中每个时序数据与所述匹配序列之间的相似度,具体为:基于动态时间规整算法,计算预设时序数据集中每个时序数据与所述匹配序列之间的相似度。另一方面,本专利技术提供一种基于近邻的时间序列数据修复装置,包括:获取模块,用于获取待修复时序数据中包含异常数据点的子序列,并删除所述子序列中的所述异常数据点,得到匹配序列;计算模块,用于计算预设时序数据集中每个时序数据与所述匹配序列之间的相似度,并按照相似度由大到小的顺序获取多个时序数据,作为多个候选时序数据;修复模块,用于基于所有候选时序数据,获取所述异常数据点的修复值。再一方面,本专利技术提供一种用于基于近邻的时间序列数据修复的电子设备,包括:存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。又一方面,本专利技术提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述的方法。又一方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。本专利技术提供的基于近邻的时间序列数据修复方法及装置,基于近邻算法,获取与待修复子序列相似度最高的多个候选时序数据,并从多个候选时序数据中选择与异常数据点的数据值偏差最小的数据值作为修复值,从而提高了修复精度和修复效率。附图说明图1为依照本专利技术实施例的基于近邻的时间序列数据修复方法示意图;图2为依照本专利技术实施例的待修复时间序列的子序列的示意图;图3为依照本专利技术实施例的异常数据点的检测方法示意图;图4为依照本专利技术实施例的基于近邻的时间序列数据修复装置示意图;图5为本专利技术实施例提供的用于基于近邻的时间序列数据修复的电子设备的结构示意图。具体实施方式为了使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为依照本专利技术实施例的基于近邻的时间序列数据修复方法示意图,如图1所示,本专利技术实施例提供一种基于近邻的时间序列数据修复方法,包括:步骤S10、获取待修复时序数据中包含异常数据点的子序列,并删除所述子序列中的所述异常数据点,得到匹配序列;步骤S20、计算预设时序数据集中每个时序数据与所述匹配序列之间的相似度,并按照相似度由大到小的顺序获取多个时序数据,作为多个候选时序数据;步骤S30、基于所有候选时序数据,获取所述异常数据点的修复值。进一步地,所述获取待修复时序数据中包含异常数据点的子序列,具体为:获取待修复时序数据中的异常数据点;基于所述异常数据点,获取所述待修复时序数据中包含异常数据点的子序列。具体的,由于时间序列获取设备的特殊性,比如传感器在室外可能因为外界环境的变化,使得获得的数据存在异常值,比如采集到的数据点的数据值会突然变大或者变小,并且变化范围超出了数据值所在的正常范围。这数据点统称为异常数据点。在进行数据修复时,首先,获取待修复时序数据中的异常数据点,异常数据点为数据值与其对应的预测值之差的绝对值大于第一预设值的数据点。例如,在一个时间序列集合S={s1,s2,…,si,…,sn}中,包含n条时间序列,其中,si为第i条长度为m的时序数据,si={<t1,v1>,<t2,v2>,…,<tj,vj>,…,<tm,vm>},其中,pj为第j个数据点,pj=<tj,vj>,tj为数据点pj的时间戳,vj为数据点pj的数据值。如果s本文档来自技高网...

【技术保护点】
1.一种基于近邻的时间序列数据修复方法,其特征在于,包括:获取待修复时序数据中包含异常数据点的子序列,并删除所述子序列中的所述异常数据点,得到匹配序列;计算预设时序数据集中每个时序数据与所述匹配序列之间的相似度,并按照相似度由大到小的顺序获取多个时序数据,作为多个候选时序数据;基于所有候选时序数据,获取所述异常数据点的修复值。

【技术特征摘要】
1.一种基于近邻的时间序列数据修复方法,其特征在于,包括:获取待修复时序数据中包含异常数据点的子序列,并删除所述子序列中的所述异常数据点,得到匹配序列;计算预设时序数据集中每个时序数据与所述匹配序列之间的相似度,并按照相似度由大到小的顺序获取多个时序数据,作为多个候选时序数据;基于所有候选时序数据,获取所述异常数据点的修复值。2.根据权利要求1所述的方法,其特征在于,所述基于所有候选时序数据,获取所述异常数据点的修复值,具体为:计算每一候选时序数据中目标数据点的数据值与所述异常数据点的数据值之差的绝对值,并作为每一目标数据点的数据值对应的第一绝对值,所述目标数据点为与所述异常数据点的时间戳相同的数据点;将最小的第一绝对值对应的目标数据点的数据值作为所述异常数据点的数据值的修复值。3.根据权利要求1所述的方法,其特征在于,所述获取待修复时序数据中包含异常数据点的子序列,具体为:获取待修复时序数据中的异常数据点;基于所述异常数据点,获取所述待修复时序数据中包含异常数据点的子序列。4.根据权利要求3所述的方法,其特征在于,所述获取待修复时序数据中的异常数据点,具体为:基于预设的自回归模型,获取待修复时序数据中每一数据点的数据值的预测值;计算所述待修复时序数据中每一数据点的数据值与预测值之差的绝对值,并作为所述待修复时序数据中每一数据点对应的第二绝对值;将大于第一预设值的...

【专利技术属性】
技术研发人员:王建民宋韶旭文成
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1