一种确定异常数据的方法及装置制造方法及图纸

技术编号:27935548 阅读:20 留言:0更新日期:2021-04-02 14:15
本说明书公开了一种确定异常数据的方法及装置。将数据进行清洗,得到待识别数据,并确定待识别数据与当前时间窗口上其它数据间的距离。根据预设数量和确定出的距离,确定待识别数据的邻域,并确定相邻数据。之后根据相邻数据与该待识别数据的时间差,确定时间因子,根据待识别数据与相邻数据的距离确定第一距离,根据相邻数据与自身邻域中各数据的距离确定第二距离。然后根据第一距离以及第二距离确定密度因子,并根据时间因子以及密度因子,确定待识别数据的异常度,以确定异常数据。可根据各数据的时间差以及待识别数据所处邻域中的其他数据,确定出时间因子和密度因子,实时计算待识别数据的异常度,及时发现异常数据对应任务存在的问题。

【技术实现步骤摘要】
一种确定异常数据的方法及装置
本说明书涉及互联网领域,尤其涉及一种确定异常数据的方法及装置。
技术介绍
随着互联网技术的发展与广泛应用,各种基于互联网的平台与系统也愈加丰富,如游戏系统、金融系统等。这些系统的运行会产生大量的数据,通过对异常数据的确定可以检测异常数据对应的任务中是否存在异常,以及时发现问题并解决问题。目前,在确定异常数据时,通常是分阶段对数据进行处理。在现有技术中,在收集到待识别的数据后,首先要对数据进行清洗,然后对数据的时序曲线进行分类,将时序曲线的类型分为周期性强和周期性弱两种。在得到分类结果后,再针对不同的时序曲线分类结果,通过不同的算法来确定数据是否异常。但现有技术中确定异常数据的方法得到的结果不够精细准确,且效率低,确定出的结果反馈较慢,导致无法及时发现异常数据,更无法及时采取措施来解决异常数据对应任务的问题。
技术实现思路
本说明书提供一种确定异常数据的方法及装置,以部分的解决现有技术存在的上述问题。本说明书采用下述技术方案:本说明书提供了一种确定异常数据的方法,具体包括:将获取到的数据进行清洗,得到各待识别数据;针对每条待识别数据,确定该待识别数据与当前时间窗口上其它数据间的距离;根据预设的数量,以及确定出的该待识别数据与当前时间窗口上其它数据间的距离,确定该待识别数据的邻域,并确定所述邻域中各数据为相邻数据;确定所述相邻数据与该待识别数据在当前时间窗口上的时间差,根据所述时间差,确定时间因子,其中,所述时间差与所述时间因子负相关;根据该待识别数据与所述相邻数据的距离确定第一距离,以及根据所述相邻数据与所述相邻数据的邻域中各数据的距离确定第二距离;根据所述第一距离以及所述第二距离确定密度因子;根据所述时间因子以及所述密度因子,通过实时计算框架确定该待识别数据的异常度,并根据该待识别数据的异常度,确定该待识别数据是否为异常数据。可选地,确定该待识别数据与当前时间窗口上其它数据间的距离,具体包括:确定该待识别数据在预设的各特征维度上的信息熵;根据确定出的该待识别数据在各特征维度上的信息熵差量,确定该待识别数据与当前时间窗口上其它数据间的距离。可选地,确定该待识别数据在各特征维度上的信息熵差量,具体包括:针对每个特征维度,根据该待识别数据在该特征维度上的特征值,确定该待识别数据在该特征维度对应的信息熵;根据除去该特征维度的其他特征维度分别对应的信息熵,确定该特征维度对应的余维信息熵;根据该待识别数据的总信息熵与所述余维信息熵的差值,确定该待识别数据在该特征维度上的信息熵差量;其中,所述总信息熵根据该待识别数据在各特征维度分别对应的信息熵确定。可选地,根据该待识别数据与所述相邻数据的距离确定第一距离,具体包括:根据该待识别数据在各特征维度上的信息熵差量,分别确定该待识别数据在各特征维度上对应的权重;针对该待识别数据的每个相邻数据,根据该待识别数据在各特征维度上对应的权重,以及该待识别数据与该相邻数据在各特征维度上的特征值,确定该待识别数据与该相邻数据的加权距离;根据该待识别数据与各相邻数据间的加权距离,确定第一距离。可选地,根据所述时间因子以及所述密度因子,通过实时计算框架确定该待识别数据的异常度,具体包括:根据所述时间因子以及所述密度因子,确定所述待识别数据的异常值;确定所述异常值落入的预设的异常度范围,并根据所述异常值落入的预设的异常度范围,确定所述待识别数据的异常度。可选地,确定该待识别数据的异常度之前,所述方法还包括:根据该待识别数据在上一时间窗口中的异常度,判断该待识别数据是否正常;若是,则将该待识别数据在上一时间窗口中的异常度,作为该待识别数据在当前时间窗口的异常度;若否,则重新确定该待识别数据在当前时间窗口的异常度。可选地,确定该待识别数据的异常度之前,所述方法还包括:判断该待识别数据是否包含在上一时间窗口中;若是,则无需更新该待识别数据的异常度;若否,则确定该待识别数据的异常度。本说明书提供了一种确定异常数据的装置,所述装置具体包括:待识别数据获取模块,用于将获取到的数据进行清洗,得到各待识别数据;数据距离确定模块,用于针对每条待识别数据,确定该待识别数据与时间窗口上其它数据间的距离;邻域确定模块,用于根据预设的数量,以及确定出的该待识别数据与时间窗口上其它数据间的距离,确定该待识别数据的邻域,并确定所述邻域中各数据为相邻数据;时间因子确定模块,用于确定所述相邻数据与该待识别数据在时间窗口上的时间差,根据所述时间差,确定时间因子,其中,所述时间差与所述时间因子负相关;邻域距离确定模块,用于根据该待识别数据与所述相邻数据的距离确定第一距离,以及根据所述相邻数据与所述相邻数据的邻域中各数据的距离确定第二距离;密度因子确定模块,用于根据所述第一距离以及所述第二距离确定密度因子;异常数据确定模块,用于根据所述时间因子以及所述密度因子,通过实时计算框架确定该待识别数据的异常度,并根据该待识别数据的异常度,确定该待识别数据是否为异常数据。本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述确定异常数据的方法。本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述确定异常数据的方法。本说明书采用的上述至少一个技术方案能够达到以下有益效果:在本说明书提供的确定异常数据的方法中,将数据进行清洗,得到待识别数据,并确定待识别数据与当前时间窗口上其它数据间的距离。根据预设数量和确定出的距离,确定待识别数据的邻域,并确定相邻数据。之后根据相邻数据与该待识别数据的时间差,确定时间因子,根据待识别数据与相邻数据的距离确定第一距离,根据相邻数据与自身邻域中各数据的距离确定第二距离。然后根据第一距离以及第二距离确定密度因子,并根据时间因子以及密度因子,确定待识别数据的异常度,以确定异常数据。从上述方法中可以看出,本方法可根据时间窗口上的各数据的时间差,以及待识别数据所处邻域中的其他数据,确定出时间因子和密度因子,并根据得到的时间因子和密度因子来实时计算待识别数据的异常度,以得到一个精细准确的结果,及时发现异常数据对应任务存在的问题。附图说明此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:图1为本说明书中一种确定异常数据的方法的流程示意图;图2为本说明书提供的一种待识别数据的相邻数据的示意图;图3为本说明书提供的一种待识别数据与其邻域的示意图;图4为本说明书提供的一种时间窗口的示本文档来自技高网...

【技术保护点】
1.一种确定异常数据的方法,其特征在于,所述方法具体包括:/n将获取到的数据进行清洗,得到各待识别数据;/n针对每条待识别数据,确定该待识别数据与当前时间窗口上其它数据间的距离;/n根据预设的数量,以及确定出的该待识别数据与当前时间窗口上其它数据间的距离,确定该待识别数据的邻域,并确定所述邻域中各数据为相邻数据;/n确定所述相邻数据与该待识别数据在当前时间窗口上的时间差,根据所述时间差,确定时间因子,其中,所述时间差与所述时间因子负相关;/n根据该待识别数据与所述相邻数据的距离确定第一距离,以及根据所述相邻数据与所述相邻数据的邻域中各数据的距离确定第二距离;/n根据所述第一距离以及所述第二距离确定密度因子;/n根据所述时间因子以及所述密度因子,通过实时计算框架确定该待识别数据的异常度,并根据该待识别数据的异常度,确定该待识别数据是否为异常数据。/n

【技术特征摘要】
1.一种确定异常数据的方法,其特征在于,所述方法具体包括:
将获取到的数据进行清洗,得到各待识别数据;
针对每条待识别数据,确定该待识别数据与当前时间窗口上其它数据间的距离;
根据预设的数量,以及确定出的该待识别数据与当前时间窗口上其它数据间的距离,确定该待识别数据的邻域,并确定所述邻域中各数据为相邻数据;
确定所述相邻数据与该待识别数据在当前时间窗口上的时间差,根据所述时间差,确定时间因子,其中,所述时间差与所述时间因子负相关;
根据该待识别数据与所述相邻数据的距离确定第一距离,以及根据所述相邻数据与所述相邻数据的邻域中各数据的距离确定第二距离;
根据所述第一距离以及所述第二距离确定密度因子;
根据所述时间因子以及所述密度因子,通过实时计算框架确定该待识别数据的异常度,并根据该待识别数据的异常度,确定该待识别数据是否为异常数据。


2.如权利要求1所述的方法,其特征在于,确定该待识别数据与当前时间窗口上其它数据间的距离,具体包括:
确定该待识别数据在预设的各特征维度上的信息熵;
根据确定出的该待识别数据在各特征维度上的信息熵差量,确定该待识别数据与当前时间窗口上其它数据间的距离。


3.如权利要求2所述的方法,其特征在于,确定该待识别数据在各特征维度上的信息熵差量,具体包括:
针对每个特征维度,根据该待识别数据在该特征维度上的特征值,确定该待识别数据在该特征维度对应的信息熵;
根据除去该特征维度的其他特征维度分别对应的信息熵,确定该特征维度对应的余维信息熵;
根据该待识别数据的总信息熵与所述余维信息熵的差值,确定该待识别数据在该特征维度上的信息熵差量;
其中,所述总信息熵根据该待识别数据在各特征维度分别对应的信息熵确定。


4.如权利要求2所述的方法,其特征在于,根据该待识别数据与所述相邻数据的距离确定第一距离,具体包括:
根据该待识别数据在各特征维度上的信息熵差量,分别确定该待识别数据在各特征维度上对应的权重;
针对该待识别数据的每个相邻数据,根据该待识别数据在各特征维度上对应的权重,以及该待识别数据与该相邻数据在各特征维度上的特征值,确定该待识别数据与该相邻数据的加权距离;
根据该待识别数据与各相邻数据间的加权距离,确定第一距离。


5.如权利要求1所述的方法,其特征在于,根据所述时间因子以及所述密度因子...

【专利技术属性】
技术研发人员:王喜熊秋刘明迪朱孟柱
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1