基于近邻的时间序列数据修复方法及装置制造方法及图纸

技术编号：18783814 阅读：100 留言：0更新日期：2018-08-29 06:58

本发明专利技术提供一种基于近邻的时间序列数据修复方法及装置，所述方法包括：获取待修复时序数据中包含异常数据点的子序列，并删除所述子序列中的所述异常数据点，得到匹配序列；计算预设时序数据集中每个时序数据与所述匹配序列之间的相似度，并按照相似度由大到小的顺序获取多个时序数据，作为多个候选时序数据；基于所有候选时序数据，获取所述异常数据点的修复值。本发明专利技术提供的基于近邻的时间序列数据修复方法及装置，基于近邻算法，获取与待修复子序列相似度最高的多个候选时序数据，并从多个候选时序数据中选择与异常数据点的数据值偏差最小的数据值作为修复值，从而提高了修复精度和修复效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于近邻的时间序列数据修复方法及装置
本专利技术涉及计算机
，尤其涉及一种基于近邻的时间序列数据修复方法及装置。
技术介绍
如今信息技术发展迅速，存储的数据类型多种多样，其中时间序列数据(简称时序数据或时间序列)呈现出了指数级的增长。时间序列作为一种常见而且重要的数据类型，数据主要来自于传感器数据、金融股票数据、全球定位系统(GPS)数据等等，主要特点是数值按照时间先后顺序排列而成。时间序列数据分析是目前最具有研究意义的问题之一。然而，在实际应用中，由于时间序列获取设备的特殊性，比如传感器在室外可能因为外界环境的变化，使得获得的数据存在异常值，比如采集到的数据点的数据值会突然变大或者变小，并且变化范围超出了数据值所在的正常范围。由于时间序列的数据质量会对后续进行的数据分析产生十分重要的影响，所以，如何对时间序列异常数据进行修复是一个非常重要的技术问题，具有十分重要的应用价值。现有技术中，对时序数据的修复方法主要分为两类，第一类主要是利用整个时序数据的平均值、中位数、总数等去修复。这种修复方法在异常数据量较大或者是在整个序列数据变化幅度比较大的情况下，修复的值相比于真实值精确度很低。第二类是通过构建算法模型去预测异常数据点的时间戳的数据，然后计算该异常数据点的数据值的预测值，根据预测值对相应的异常数据点的数据值进行修复。这种方法时间复杂度较高，只适用于小数据集，修复数据消耗时间太长，修复效率低。
技术实现思路
本专利技术的目的是提供一种基于近邻的时间序列数据修复方法及装置，解决了现有技术中的数据修复方法修复精度低，以及修复效率低的技术问题。为了解决上述技术...

【技术保护点】
1.一种基于近邻的时间序列数据修复方法，其特征在于，包括：获取待修复时序数据中包含异常数据点的子序列，并删除所述子序列中的所述异常数据点，得到匹配序列；计算预设时序数据集中每个时序数据与所述匹配序列之间的相似度，并按照相似度由大到小的顺序获取多个时序数据，作为多个候选时序数据；基于所有候选时序数据，获取所述异常数据点的修复值。

【技术特征摘要】
1.一种基于近邻的时间序列数据修复方法，其特征在于，包括：获取待修复时序数据中包含异常数据点的子序列，并删除所述子序列中的所述异常数据点，得到匹配序列；计算预设时序数据集中每个时序数据与所述匹配序列之间的相似度，并按照相似度由大到小的顺序获取多个时序数据，作为多个候选时序数据；基于所有候选时序数据，获取所述异常数据点的修复值。2.根据权利要求1所述的方法，其特征在于，所述基于所有候选时序数据，获取所述异常数据点的修复值，具体为：计算每一候选时序数据中目标数据点的数据值与所述异常数据点的数据值之差的绝对值，并作为每一目标数据点的数据值对应的第一绝对值，所述目标数据点为与所述异常数据点的时间戳相同的数据点；将最小的第一绝对值对应的目标数据点的数据值作为所述异常数据点的数据值的修复值。3.根据权利要求1所述的方法，其特征在于，所述获取待修复时序数据中包含异常数据点的子序列，具体为：获取待修复时序数据中的异常数据点；基于所述异常数据点，获取所述待修复时序数据中包含异常数据点的子序列。4.根据权利要求3所述的方法，其特征在于，所述获取待修复时序数据中的异常数据点，具体为：基于预设的自回归模型，获取待修复时序数据中每一数据点的数据值的预测值；计算所述待修复时序数据中每一数据点的数据值与预测值之差的绝对值，并作为所述待修复时序数据中每一数据点对应的第二绝对值；将大于第一预设值的...

【专利技术属性】
技术研发人员：王建民，宋韶旭，文成，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人