一种异常数据自动识别方法、可读存储系统技术方案

技术编号:27819074 阅读:20 留言:0更新日期:2021-03-30 10:28
本发明专利技术公开了一种异常数据自动识别方法、可读存储系统,包括如下步骤:S1获取检测设备在当前时刻所发出的数据量,建立当前时刻相关系数的数据矩阵;S2获取当前时刻所在周期前一周期内检测设备在各时刻所发出的数据量,得到前一周期的相关系数的数据矩阵;S3利用当前时刻相关系数的数据矩阵与前一周期的相关系数的数据矩阵进行筛选,筛选出相应的异常数据样本;S4对多份异常样本数据进行降维处理,得到每个样本标识对应的异常特征坐标,同时,对待识别样本数据进行降维处理,得到每个样本标识对应的待识别特征坐标。本发明专利技术能够直接计算出异常区间,以及根据异常区间识别出异常数据点,可以高效的识别每个样本数值数据的异常。可以高效的识别每个样本数值数据的异常。

【技术实现步骤摘要】
一种异常数据自动识别方法、可读存储系统


[0001]本专利技术涉及计算机
,尤其涉及一种异常数据自动识别方法、可读存储系统。

技术介绍

[0002]随着科技的日新月异,存储设备的普及和性能提升,加上互联网和物联网的快速发展,大量的数据被储存了起来,如工业设备数据、传感器数据、移动设备数据和金融数据等。从这些大量的数值型数据中找到异常点是获得数据价值的一种重要方法。
[0003]现有技术中的异常点识别方法需要通过人为的干涉,例如通过人工识别确定异常点的发生边界,或确定异常发生的区间。另外,对于不同的数据来源需要设定不同异常点的识别区间;由于异常区间是人为产生和设置的,而对于不同批次、不同来源的数据需要分别设置异常区间,使得寻找异常点的工作量是很大的,而这也导致了现有方式是低效的。

技术实现思路

[0004]基于
技术介绍
存在的技术问题,本专利技术提出了一种异常数据自动识别方法、可读存储系统。
[0005]本专利技术提出的一种异常数据自动识别方法,包括如下步骤:
[0006]S1获取检测设备在当前时刻所发出的数据量,建立当前时刻相关系数的数据矩阵;
[0007]S2获取当前时刻所在周期前一周期内检测设备在各时刻所发出的数据量,得到前一周期的相关系数的数据矩阵;
[0008]S3利用当前时刻相关系数的数据矩阵与前一周期的相关系数的数据矩阵进行筛选,筛选出相应的异常数据样本;
[0009]S4对多份异常样本数据进行降维处理,得到每个样本标识对应的异常特征坐标,同时,对待识别样本数据进行降维处理,得到每个样本标识对应的待识别特征坐标;
[0010]S5利用异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标进行对比,计算出异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标之间的数据差;
[0011]S6判断数据差是否小于阈值,数据差是小于阈值时,将相应样本标识对应的样本数据标记为异常数据。
[0012]优选的,所述方法还包括:若判断获知所述当前时刻相关系数的数据矩阵为多维数据,则将多维数据处理为一维数据。
[0013]优选的,所述降维处理为通过计算当前时刻所发出的数据量中每个维度的方差,进行维度过滤,根据方差对过滤后的维度进行分组,得到两个维度组合,对每个维度组合分别进行降维处理,将降维后的两个维度组合进行拼接,生成与样本标识对应的特征坐标。
[0014]一种计算机可读存储系统,其特征在于,包括其上存储有计算机程序,该程序被处
理器执行时实现如权利要求1至3任一所述方法的步骤。
[0015]本专利技术中,所述一种异常数据自动识别方法、可读存储系统,能够直接计算出异常区间,以及根据异常区间识别出异常数据点,可以高效的识别每个样本数值数据的异常。
具体实施方式
[0016]下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0017]一种异常数据自动识别方法,包括如下步骤:
[0018]S1获取检测设备在当前时刻所发出的数据量,建立当前时刻相关系数的数据矩阵;
[0019]S2获取当前时刻所在周期前一周期内检测设备在各时刻所发出的数据量,得到前一周期的相关系数的数据矩阵;
[0020]S3利用当前时刻相关系数的数据矩阵与前一周期的相关系数的数据矩阵进行筛选,筛选出相应的异常数据样本;
[0021]S4对多份异常样本数据进行降维处理,得到每个样本标识对应的异常特征坐标,同时,对待识别样本数据进行降维处理,得到每个样本标识对应的待识别特征坐标;
[0022]S5利用异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标进行对比,计算出异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标之间的数据差;
[0023]S6判断数据差是否小于阈值,数据差是小于阈值时,将相应样本标识对应的样本数据标记为异常数据。
[0024]本专利技术中,所述方法还包括:若判断获知所述当前时刻相关系数的数据矩阵为多维数据,则将多维数据处理为一维数据。
[0025]本专利技术中,所述降维处理为通过计算当前时刻所发出的数据量中每个维度的方差,进行维度过滤,根据方差对过滤后的维度进行分组,得到两个维度组合,对每个维度组合分别进行降维处理,将降维后的两个维度组合进行拼接,生成与样本标识对应的特征坐标。
[0026]一种计算机可读存储系统,包括其上存储有计算机程序,该程序被处理器执行时实现如权利要求1至3任一所述方法的步骤。
[0027]本专利技术:获取检测设备在当前时刻所发出的数据量,建立当前时刻相关系数的数据矩阵;获取当前时刻所在周期前一周期内检测设备在各时刻所发出的数据量,得到前一周期的相关系数的数据矩阵;利用当前时刻相关系数的数据矩阵与前一周期的相关系数的数据矩阵进行筛选,筛选出相应的异常数据样本;对多份异常样本数据进行降维处理,得到每个样本标识对应的异常特征坐标,同时,对待识别样本数据进行降维处理,得到每个样本标识对应的待识别特征坐标;利用异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标进行对比,计算出异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标之间的数据差;判断数据差是否小于阈值,数据差是小于阈值时,将相应样本标识对应的样本数据标记为异常数据。
[0028]以上所述,仅为本专利技术较佳的具体实施方式,但本专利技术的保护范围并不局限于此,
任何熟悉本
的技术人员在本专利技术揭露的技术范围内,根据本专利技术的技术方案及其专利技术构思加以等同替换或改变,都应涵盖在本专利技术的保护范围之内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常数据自动识别方法,其特征在于,包括如下步骤:S1获取检测设备在当前时刻所发出的数据量,建立当前时刻相关系数的数据矩阵;S2获取当前时刻所在周期前一周期内检测设备在各时刻所发出的数据量,得到前一周期的相关系数的数据矩阵;S3利用当前时刻相关系数的数据矩阵与前一周期的相关系数的数据矩阵进行筛选,筛选出相应的异常数据样本;S4对多份异常样本数据进行降维处理,得到每个样本标识对应的异常特征坐标,同时,对待识别样本数据进行降维处理,得到每个样本标识对应的待识别特征坐标;S5利用异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标进行对比,计算出异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标之间的数据差;S6判断数据差是...

【专利技术属性】
技术研发人员:王清杰
申请(专利权)人:北京德风新征程科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1