The invention discloses a method for repairing abnormal data points in time series data based on global information. By acquiring the original time series data and the location of abnormal data points, the abnormal data points are initially initialized by using the mean of the nearest K non-abnormal data points, and the similar sub-sequence data are aggregated into the same data. In each cluster, similar repaired subsequence data is searched; similar subsequence data in time series data is used as a global information, and the weighted cumulative value of the mean provided by multiple similar subsequence data is used as the value of the repaired outlier data points to reduce the shadow caused by the error of single similar subsequence data. Ringing. Through these steps, we can realize the precise repair of abrupt outliers in time series data.
【技术实现步骤摘要】
基于全局信息的时间序列数据中异常数据点的修复方法
本专利技术属于数据清洗领域,更为具体地讲,涉及一种基于全局信息的时间序列数据中异常数据点的修复方法。
技术介绍
随着各种传感器的广泛使用,日常生活中越来越多的时间序列数据被采集和应用,例如气温数据和GPS轨迹数据。时间序列数据挖掘作为当今的一个热门研究课题,具有重要价值。然而,脏数据也广泛存在于时间序列数据中,给时间序列数据的挖掘与分析带来了巨大的影响。毫无疑问,通过修复时间序列数据中的异常数据点可以提高数据质量,能够有效改善数据挖掘的结果,具有重要意义。其中,修复时间序列数据中的突发异常数据点,是数据清洗中的一项重要内容。由于传感器错误和其他原因,导致时间序列数据中通常存在不精确或错误的数据点。目前,时间序列数据清洗领域有两种主流方法:基于平滑和基于约束的方法。基于平滑的方法通常用于消除序列中的异常数据点,如简单移动平均(SMA)和指数加权移动平均(EWMA)。然而,这类方法可能造成过度修复问题,即原本正确的数据点被修改错误。此外,最近一些基于约束的新方法被提出了,但是现有的基于约束的方法并不能找到满足约束条件的所有有效修复值中最有可能的结果。异常数据点的真实值难以精确估计,使得时间序列数据清洗成为极具挑战性的问题。综上,目前在修复时间序列数据中的突发异常数据点时,存在过度修复或难以精确修复异常数据点的问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于全局信息的时间序列数据中异常数据点的修复方法,实现对时间序列数据中突发异常数据点的精确修复。为实现上述专利技术目的,本专利技术一种基于全 ...
【技术保护点】
1.基于全局信息的时间序列数据中异常数据点的修复方法,其特征在于,包括以下步骤:S1:获取原始时间序列数据以及异常数据点位置;S2:对于每个异常数据点,使用k近邻算法从原始时间序列数据中,选取k个非异常数据点,使用它们的均值作为异常数据点的值,对异常数据点进行初始化;S3:将所述原始时间序列数据依次划分成大小相同的多个子序列数据,然后对多个子序列数据进行聚类,将各子序列数据划分到不同的类簇中;S4:依次遍历所述的多个子序列数据,如果遍历到的子序列数据中不存在异常数据点,则不需要进行修复,直接遍历下一个子序列数据,如果遍历到的子序列数据中存在异常数据点,则该子序列数据为待修复子序列数据;对于待修复子序列数据,其所在类簇已遍历过的子序列数据为已修复子序列数据,并在其中查找与待修复子序列数据相似的已修复子序列数据;S5:使用DTW算法计算待修复子序列数据与相似的已修复子序列数据之间的距离和归整路径,然后计算各相似的已修复子序列数据的权重以及归整路径中与待修复子序列数据中异常数据点对应的相似的已修复子序列数据中数据点的均值,将这些获取的数据点的均值,加权累加后得到的值作为修复后异常数据点的值, ...
【技术特征摘要】
1.基于全局信息的时间序列数据中异常数据点的修复方法,其特征在于,包括以下步骤:S1:获取原始时间序列数据以及异常数据点位置;S2:对于每个异常数据点,使用k近邻算法从原始时间序列数据中,选取k个非异常数据点,使用它们的均值作为异常数据点的值,对异常数据点进行初始化;S3:将所述原始时间序列数据依次划分成大小相同的多个子序列数据,然后对多个子序列数据进行聚类,将各子序列数据划分到不同的类簇中;S4:依次遍历所述的多个子序列数据,如果遍历到的子序列数据中不存在异常数据点,则不需要进行修复,直接遍历下一个子序列数据,如果遍历到的子序列数据中存在异常数据点,则该子序列数据为待修复子序列数据;对于待修复子序列数据,其所在类簇已遍历过的子序列数据为已修复子序列数据,并在其中查找与待修复子序列数据相似的已修复子序列数据;S5:使用DTW算法计算待修复子序列数据与相似的已修复子序列数据之间的距离和归整路径,然后计算各相似的已修复子序列数据的权重以及归整路径中与待修复子序列数据中异常数据点对应的相似的已修复子序列数据中数据点的均值,将这些获取的数据点的均值,加权累加后得到的值作为修复后异常数据点的值,然后返回步骤S4,遍历下一个子序列数据。2.根据权利要求1所述的基于全局信息的时间序列数据中异常数据点的修复方法,其特征在于,步骤S3中,所述对子对多个子序列数据进行聚类采用的是K-DBA算法。3.根据权利要求1所述的基于全局信息的时间序列数据中异常数据点的修复方法,其特征在于,步骤S4中,已修复子序列数据与待修复子序列数据相似需满足的条...
【专利技术属性】
技术研发人员:王晓玲,刘小捷,宋光旋,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。