一种时序数据的异常值处理方法及系统技术方案

技术编号:35708143 阅读:25 留言:0更新日期:2022-11-23 15:05
本发明专利技术提供了一种时序数据的异常值处理方法及系统,属于数据预处理技术领域;其中,所述方法包括:根据时序数据获得训练集数据,对所述训练集数据进行预处理;根据经过预处理的所述训练集数据建立时间序列模型;根据所述时间序列模型对所述时序数据进行极值识别处理。本发明专利技术的数据预处理方法,通过对时序数据进行分析、建模,提高了数据极值判断的准确性并兼顾效率,能够可靠地对极值进行识别、处理。处理。处理。

【技术实现步骤摘要】
一种时序数据的异常值处理方法及系统


[0001]本专利技术涉及数据预处理
,具体而言,涉及一种时序数据的异常值处理方法、系统、电子设备及计算机存储介质。

技术介绍

[0002]数据的异常值处理一直以来都是业界较为看重但也十分困难的一个环节,尤其是时序数据不同于其他横截面数据、带有序列和时间特征,因此其部分异常数据可能是有某些时间或者统计口径不一致导致的,而这类异常数据通常是具有一定的研究价值;如果只是将其采用与普通的异常点一样的处理方法一同剔除,最终研究分析的结果与事实可能产生较大的偏离。
[0003]目前的数据异常值处理的方法大致有以下三种:1)将数据默认为一个分布(如正态分布、均匀分布),对其尾部划分阈值(如三倍标准差、分位数),超过阈值则为异常值,并用某个值代替。这种方法的前期假设是数据服从某类分布,并对异常值出现的概率有所假设,而在现实世界中,例如时序的经济数据往往并不严格符合特定的分布;2)对大量数据的逐个判断,这种方法往往需要研究人员对此类数据有所了解,并仔细分析,但对大量数据的逐个判断效率非常低下;3)使用DBScan聚类、孤立森林等无监督学习模型,这类算法相较于传统的方法有较好适用范围,可以处理任意形状的数据集,处理时序数据的效果比方法1)有所提升,无需假设数据分布,但任忽略了数据本身的特点,更适合相互之间有联系的多维数据。
[0004]综上,现有的数据异常值处理方法存在上述的多种缺陷,难以满足时序数据的异常值处理需要,亟需改进。

技术实现思路

[0005]为了至少解决上述
技术介绍
中存在的技术问题,本专利技术提供了一种时序数据的异常值处理方法、系统、电子设备及计算机存储介质。
[0006]本专利技术的第一方面提供了一种时序数据的异常值处理方法,包括如下步骤:根据时序数据获得训练集数据,对所述训练集数据进行预处理;根据经过预处理的所述训练集数据建立时间序列模型;根据所述时间序列模型对所述时序数据进行极值识别处理。
[0007]可选地,所述根据时序数据获得训练集数据,包括:根据业务需求设定所述时序数据的前K%作为训练集数据,后(1

K%)作为测试集数据。
[0008]可选地,所述对所述训练集数据进行预处理,包括:对所述训练集数据进行平稳性分析、白噪声检验、标准化处理。
[0009]可选地,所述根据经过预处理的所述训练集数据建立时间序列模型,包括:
对所述训练集数据中的每组数据进行定阶处理,根据定阶处理后的所述训练集数据对所述时间序列模型进行训练。
[0010]可选地,所述根据所述时间序列模型对所述时序数据进行极值识别处理,包括:将所述时序数据输入所述时间序列模型;根据所述时间序列模型对所述时序数据进行非动态预测,并输出与所述时序数据对应的若干预测值和置信区间;若所述时序数据中对应的原始数据超出所述置信区间,则识别为极值,并使用“预测值+调节值”对该原始数据进行替换。
[0011]可选地,所述调节值通过下述方式确定:根据所述原始数据从所述时序数据中确定出第一数据,根据所述第一数据确定基础调节值;确定所述时序数据的第二数据,根据所述第二数据确定第一修正系数;根据所述基础调节值和所述第一修正系数确定所述调节值。
[0012]可选地,所述根据所述原始数据从所述时序数据中确定出第一数据,包括:根据所述第二数据确定截取范围,根据所述截取范围和所述原始数据从所述时序数据中确定出所述第一数据。
[0013]本专利技术的第二方面提供了一种时序数据的异常值处理系统,处理模块、存储模块、获取模块,所述处理模块与所述存储模块和所述获取模块连接;其中,所述存储模块,用于存储可执行的计算机程序代码;所述获取模块,用于获取时序数据并传输给所述处理模块;所述处理模块,用于通过调用所述存储模块中的所述可执行的计算机程序代码,执行如前任一项所述的方法。
[0014]本专利技术的第三方面提供了一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,执行如前任一项所述的方法。
[0015]本专利技术的第四方面提供了一种计算机存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上任一项所述的方法。
[0016]本专利技术的方案,相比于
技术介绍
中所述的常规异常值处理方法,本专利技术先基于时序数据确定训练集数据,并对其进行平稳性分析,之后再根据训练集数据建立时间序列模型,利用该时间序列模型即可快速准确的识别出时序数据中的极值并对应处理。于是,本专利技术的数据预处理方法,通过对时序数据进行分析、建模,提高了数据极值判断的准确性并兼顾效率,能够可靠地对极值进行识别、处理。
附图说明
[0017]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0018]图1是本专利技术实施例公开的一种时序数据的异常值处理方法的流程示意图。
[0019]图2是本专利技术实施例公开的一种时序数据的异常值处理系统的结构示意图。
[0020]图3是本专利技术实施例公开一种电子设备的结构示意图。
具体实施方式
[0021]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]请参阅图1,图1是本专利技术实施例公开的一种时序数据的异常值处理方法的流程示意图。如图1所示,本专利技术实施例的一种时序数据的异常值处理方法,包括如下步骤:根据时序数据获得训练集数据,对所述训练集数据进行预处理;根据经过预处理的所述训练集数据建立时间序列模型;根据所述时间序列模型对所述时序数据进行极值识别处理。
[0023]在本专利技术实施例中,相比于
技术介绍
中所述的常规异常值处理方法,本专利技术先基于时序数据确定训练集数据,并对其进行平稳性分析,之后再根据训练集数据建立时间序列模型,利用该时间序列模型即可快速准确的识别出时序数据中的极值并对应处理。于是,本专利技术的数据预处理方法,通过对时序数据进行分析、建模,提高了数据极值判断的准确性并兼顾效率,能够可靠地对极值进行识别、处理。
[0024]本专利技术的上述及后续方案既可以由处理设备实施,也可以由远程端的服务器实施。其中,处理设备可以是配置了CPU、DSP、单片机等处理器的装置,例如计算机、电脑、移动终端、可穿戴设备等;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(C本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时序数据的异常值处理方法,其特征在于:包括如下步骤:根据时序数据获得训练集数据,对所述训练集数据进行预处理;根据经过预处理的所述训练集数据建立时间序列模型;根据所述时间序列模型对所述时序数据进行极值识别处理。2.根据权利要求1所述的一种时序数据的异常值处理方法,其特征在于:所述根据时序数据获得训练集数据,包括:根据业务需求设定所述时序数据的前K%作为训练集数据,后(1

K%)作为测试集数据。3.根据权利要求1所述的一种时序数据的异常值处理方法,其特征在于:所述对所述训练集数据进行预处理,包括:对所述训练集数据进行平稳性分析、白噪声检验、标准化处理。4.根据权利要求1所述的一种时序数据的异常值处理方法,其特征在于:所述根据经过预处理的所述训练集数据建立时间序列模型,包括:对所述训练集数据中的每组数据进行定阶处理,根据定阶处理后的所述训练集数据对所述时间序列模型进行训练。5.根据权利要求1所述的一种时序数据的异常值处理方法,其特征在于:所述根据所述时间序列模型对所述时序数据进行极值识别处理,包括:将所述时序数据输入所述时间序列模型;根据所述时间序列模型对所述时序数据进行非动态预测,并输出与所述时序数据对应的若干预测值和置信区间;若所述时序数据中对应的原始数据超出所述置信区间,则识别为极值,并使用“预测值+调节值”对该原始数据进行替换。6.根据权利要求5所述的一种时序数据...

【专利技术属性】
技术研发人员:赵禹平张炜祺杨蕊菱徐建程
申请(专利权)人:上海金仕达软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1