一种确定异常数据的方法及装置制造方法及图纸

技术编号：27935548 阅读：31 留言：0更新日期：2021-04-02 14:15

本说明书公开了一种确定异常数据的方法及装置。将数据进行清洗，得到待识别数据，并确定待识别数据与当前时间窗口上其它数据间的距离。根据预设数量和确定出的距离，确定待识别数据的邻域，并确定相邻数据。之后根据相邻数据与该待识别数据的时间差，确定时间因子，根据待识别数据与相邻数据的距离确定第一距离，根据相邻数据与自身邻域中各数据的距离确定第二距离。然后根据第一距离以及第二距离确定密度因子，并根据时间因子以及密度因子，确定待识别数据的异常度，以确定异常数据。可根据各数据的时间差以及待识别数据所处邻域中的其他数据，确定出时间因子和密度因子，实时计算待识别数据的异常度，及时发现异常数据对应任务存在的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种确定异常数据的方法及装置
本说明书涉及互联网领域，尤其涉及一种确定异常数据的方法及装置。
技术介绍
随着互联网技术的发展与广泛应用，各种基于互联网的平台与系统也愈加丰富，如游戏系统、金融系统等。这些系统的运行会产生大量的数据，通过对异常数据的确定可以检测异常数据对应的任务中是否存在异常，以及时发现问题并解决问题。目前，在确定异常数据时，通常是分阶段对数据进行处理。在现有技术中，在收集到待识别的数据后，首先要对数据进行清洗，然后对数据的时序曲线进行分类，将时序曲线的类型分为周期性强和周期性弱两种。在得到分类结果后，再针对不同的时序曲线分类结果，通过不同的算法来确定数据是否异常。但现有技术中确定异常数据的方法得到的结果不够精细准确，且效率低，确定出的结果反馈较慢，导致无法及时发现异常数据，更无法及时采取措施来解决异常数据对应任务的问题。
技术实现思路
本说明书提供一种确定异常数据的方法及装置，以部分的解决现有技术存在的上述问题。本说明书采用下述技术方案：本说明书提供了一种确定异常数...

【技术保护点】
1.一种确定异常数据的方法，其特征在于，所述方法具体包括：/n将获取到的数据进行清洗，得到各待识别数据；/n针对每条待识别数据，确定该待识别数据与当前时间窗口上其它数据间的距离；/n根据预设的数量，以及确定出的该待识别数据与当前时间窗口上其它数据间的距离，确定该待识别数据的邻域，并确定所述邻域中各数据为相邻数据；/n确定所述相邻数据与该待识别数据在当前时间窗口上的时间差，根据所述时间差，确定时间因子，其中，所述时间差与所述时间因子负相关；/n根据该待识别数据与所述相邻数据的距离确定第一距离，以及根据所述相邻数据与所述相邻数据的邻域中各数据的距离确定第二距离；/n根据所述第一距离以及所述第二距离...

【技术特征摘要】
1.一种确定异常数据的方法，其特征在于，所述方法具体包括：
将获取到的数据进行清洗，得到各待识别数据；
针对每条待识别数据，确定该待识别数据与当前时间窗口上其它数据间的距离；
根据预设的数量，以及确定出的该待识别数据与当前时间窗口上其它数据间的距离，确定该待识别数据的邻域，并确定所述邻域中各数据为相邻数据；
确定所述相邻数据与该待识别数据在当前时间窗口上的时间差，根据所述时间差，确定时间因子，其中，所述时间差与所述时间因子负相关；
根据该待识别数据与所述相邻数据的距离确定第一距离，以及根据所述相邻数据与所述相邻数据的邻域中各数据的距离确定第二距离；
根据所述第一距离以及所述第二距离确定密度因子；
根据所述时间因子以及所述密度因子，通过实时计算框架确定该待识别数据的异常度，并根据该待识别数据的异常度，确定该待识别数据是否为异常数据。

2.如权利要求1所述的方法，其特征在于，确定该待识别数据与当前时间窗口上其它数据间的距离，具体包括：
确定该待识别数据在预设的各特征维度上的信息熵；
根据确定出的该待识别数据在各特征维度上的信息熵差量，确定该待识别数据与当前时间窗口上其它数据间的距离。

3.如权利要求2所述的方法，其特征在于，确定该待识别数据在各特征维度上的信息熵差量，具体包括：
针对每个特征维度，根据该待识别数据在该特征维度上的特征值，确定该待识别数据在该特征维度对应的信息熵；
根据除去该特征维度的其他特征维度分别对应的信息熵，确定该特征维度对应的余维信息熵；
根据该待识别数据的总信息熵与所述余维信息熵的差值，确定该待识别数据在该特征维度上的信息熵差量；
其中，所述总信息熵根据该待识别数据在各特征维度分别对应的信息熵确定。

4.如权利要求2所述的方法，其特征在于，根据该待识别数据与所述相邻数据的距离确定第一距离，具体包括：
根据该待识别数据在各特征维度上的信息熵差量，分别确定该待识别数据在各特征维度上对应的权重；
针对该待识别数据的每个相邻数据，根据该待识别数据在各特征维度上对应的权重，以及该待识别数据与该相邻数据在各特征维度上的特征值，确定该待识别数据与该相邻数据的加权距离；
根据该待识别数据与各相邻数据间的加权距离，确定第一距离。

5.如权利要求1所述的方法，其特征在于，根据所述时间因子以及所述密度因子...

【专利技术属性】
技术研发人员：王喜，熊秋，刘明迪，朱孟柱，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人