一种检测异常数据区间的数据挖掘方法及系统技术方案

技术编号:12389775 阅读:48 留言:0更新日期:2015-11-25 22:50
本申请提供了一种检测异常数据区间的数据挖掘方法,在对目标数据进行数据挖掘之前,需要确定区间宽度和步进长度,在对目标数据进行数据挖掘的过程中,以区间步进的方式遍历目标数据,动态逐步获取目标数据的最大偏移量,确定当前数据区间的偏移率,将当前数据区间的偏移率与额定偏移率进行比较,当所述当前数据区间的偏移率大于所述额定偏移率时,确定所述当前数据区间中的异常数据点以及异常数据区间;当遍历完所有的目标数据后,得到所有的异常数据点、异常数据区间和所述目标数据的整体最大值和整体最小值,能够准确、快速的检测目标数据中的异常区间。

【技术实现步骤摘要】

本申请涉及数据挖掘领域,特别涉及一种检测异常数据区间的数据挖掘方法及系统
技术介绍
随着技术的发展,人们对异常数据区间的数据挖掘越来越关注。现有的异常数据数据挖掘都是进行离群点或孤立点的检测,对于具有时间或空间连续性的数据,也只能检测到异常的独立数据点,不能检测到异常的数据区间。因此,如何有效的检测到异常数据区间是本领域技术人员目前需要解决的技术问题。
技术实现思路
本申请所要解决的技术问题是提供一种检测异常数据区间的数据挖掘方法及系统,解决了现有技术中异常数据数据挖掘都是进行离群点或孤立点的检测,对于具有时间或空间连续性的数据,也只能检测到异常的独立数据点,不能检测到异常的数据区间的问题。其具体方案如下:一种检测异常数据区间的数据挖掘方法,确定区间宽度和步进长度,以区间步进的方式遍历目标数据,该方法包括:获取当前数据区间的最大值和最小值;计算所述当前数据区间的偏移量,其中,所述当前数据区间的偏移量为所述当前数据区间的最大值和最小值的差值;获取遍历完的数据和所述当前数据区间中所有数据的当前整体最大值和当前整体最小值;计算所述目标数据的当前整体偏移量,其中,所述目标数据的当前整体偏移量为所述当前整体最大值和当前整体最小值的差值;计算所述当前数据区间的偏移率,其中,所述当前数据区间的偏移率为所述当前数据区间的偏移量与所述当前整体偏移量的比值;将所述当前数据区间的偏移率与额定偏移率进行比较;当所述当前数据区间的偏移率大于所述额定偏移率时,确定所述当前数据区间中最大值数据点和最小值数据点、以及位于所述最大值数据点和最小值数据点之间的数据点均为异常数据点,所述最大值数据点和所述最小值数据点组成的区间为异常数据区间;以所述步进长度和区间宽度进行区间步进,将下一个数据区间作为当前数据区间,重复所述获取当前数据区间的最大值和最小值,直到遍历完所述目标数据,得到所有的异常数据点、异常数据区间和所述目标数据的整体最大值和整体最小值。上述的方法,可选的,所述确定当前数据区间中最大值数据点和最小值数据点、以及位于所述最大值数据点和最小值数据点之间的数据点均为异常数据点之后,还包括:对所述异常数据点进行分类;其中,所述对异常数据点进行分类,包括:比较所述当前异常数据区间中第一个异常数据点和第二个异常数据点的大小;当所述第一个异常数据点小于所述第二个异常数据点时,确定所述第一个异常数据点为异常增大的起始数据点,所述当前异常数据区间中的最后一个异常数据点为异常增大的结束数据点;当所述第一个异常数据点大于所述第二个异常数据点时,确定所述第一个异常数据点为异常减小的起始数据点,所述当前异常数据区间中的最后一个异常数据点为异常减小的结束数据点。上述的方法,可选的,还包括:以遍历的方式检测所有异常数据点,祛除不符合预设要求的异常数据点,确定最终的异常数据点;其中,所述以遍历的方式检测所有异常数据点,祛除不符合预设要求的异常数据点,确定最终的异常数据点,包括:判断当前异常数据点的位置是否在所述目标数据的整体最大值和整体最小值的位置之后;当所述当前异常数据点的位置在所述目标数据的整体最大值和整体最小值的位置之后时,判断所述当前异常数据点与上一个类别相同的异常数据点之间的距离与所述步进长度之间的关系;当所述当前异常数据点与上一个类别相同的异常数据点之间的距离大于所述步进长度时,确定所述当前异常数据点为异常点;当所述当前异常数据点与上一个类别相同的异常数据点之间的距离等于所述步进长度时,将所述当前异常数据点的类别添加到所述上一个类别相同的异常数据点中,并删除所述当前异常数据点;当所述当前异常数据点与上一个类别相同的异常数据点之间的距离小于所述步进长度时,在所述当前异常数据点所属类别中,祛除一个无效的异常数据点;将下一个异常数据点作为当前异常数据点,重复上述过程,直到遍历完所有的异常数据点。上述的方法,可选的,还包括:当所述当前异常数据点的位置不在所述目标数据的整体最大值和整体最小值的位置之后时,判断所述当前异常数据点所属的异常数据区间的最大值与最小值的差值是否大于所述目标数据的整体额定偏差值;当所述当前异常数据点所属的异常数据区间的最大值与最小值的差值大于所述目标数据的整体额定偏差值时,判断所述当前异常数据点与上一个类别相同的异常数据点之间的距离与所述步进长度之间的关系;当所述当前异常数据点所属的异常数据区间的最大值与最小值的差值不大于所述目标数据的整体额定偏差值时,确定所述当前异常数据点为无效异常数据点,祛除所述当前异常数据点;其中,所述目标数据的整体额定偏差值为所述目标数据的整体最大值和整体最小值的差值与所述额定偏移率的乘积。上述的方法,可选的,所述在所述当前异常数据点所属类别中,祛除一个无效的异常数据点,包括:判断所述当前异常数据点的类别;当所述当前异常数据点为异常增大的起始数据点时,保留序列小的异常数据点,删除序列大的异常数据点;当所述当前异常数据点为异常增大的结束数据点时,保留序列大的异常数据点,删除序列小的异常数据点;当所述当前异常数据点为异常减小的起始数据点时,保留序列小的异常数据点,删除序列大的异常数据点;当所述当前异常数据点为异常减小的结束数据点时,保留序列大的异常数据点,删除序列小的异常数据点。一种检测异常数据区间的数据挖掘系统,该系统包括:第一确定单元,用于确定区间宽度和步进长度,以区间步进的方式遍历目标数据;第一获取单元,用于获取当前数据区间的最大值和最小值;第一计算单元,用于计算所述当前数据区间的偏移量,其中,所述当前数据区间的偏移量为所述当前数据区间的最大值和最小值的差值;第二获取单元,用于获取遍历完的数据和所述当前数据区间中所有数据的当前整体最大值和当前整体最小值;第二计算单元,用于计算所述目标数据的当前整体偏移量,其中,所述目标数据的当前整体偏移量为所述当前整体最大值和当前整体最小值的差值;第三计算单元,用于计算所述当前数据区间的偏移率,其中,所述当前数据区间的偏移率为所述当前数据区间的偏移量与所述当前整体偏移量的比值;第一比较单元,用于将所述当前数据区间的偏移率与额定偏移率进行比较;第二确定单元,用于当所述当前数据区间的偏移率大于所述额定偏移率本文档来自技高网...

【技术保护点】
一种检测异常数据区间的数据挖掘方法,其特征在于,确定区间宽度和步进长度,以区间步进的方式遍历目标数据,该方法包括:获取当前数据区间的最大值和最小值;计算所述当前数据区间的偏移量,其中,所述当前数据区间的偏移量为所述当前数据区间的最大值和最小值的差值;获取遍历完的数据和所述当前数据区间中所有数据的当前整体最大值和当前整体最小值;计算所述目标数据的当前整体偏移量,其中,所述目标数据的当前整体偏移量为所述当前整体最大值和当前整体最小值的差值;计算所述当前数据区间的偏移率,其中,所述当前数据区间的偏移率为所述当前数据区间的偏移量与所述当前整体偏移量的比值;将所述当前数据区间的偏移率与额定偏移率进行比较;当所述当前数据区间的偏移率大于所述额定偏移率时,确定所述当前数据区间中最大值数据点和最小值数据点、以及位于所述最大值数据点和最小值数据点之间的数据点均为异常数据点,所述最大值数据点和所述最小值数据点组成的区间为异常数据区间;以所述步进长度和区间宽度进行区间步进,将下一个数据区间作为当前数据区间,重复所述获取当前数据区间的最大值和最小值,直到遍历完所述目标数据,得到所有的异常数据点、异常数据区间和所述目标数据的整体最大值和整体最小值。...

【技术特征摘要】
1.一种检测异常数据区间的数据挖掘方法,其特征在于,确定区间
宽度和步进长度,以区间步进的方式遍历目标数据,该方法包括:
获取当前数据区间的最大值和最小值;
计算所述当前数据区间的偏移量,其中,所述当前数据区间的偏移量
为所述当前数据区间的最大值和最小值的差值;
获取遍历完的数据和所述当前数据区间中所有数据的当前整体最大
值和当前整体最小值;
计算所述目标数据的当前整体偏移量,其中,所述目标数据的当前整
体偏移量为所述当前整体最大值和当前整体最小值的差值;
计算所述当前数据区间的偏移率,其中,所述当前数据区间的偏移率
为所述当前数据区间的偏移量与所述当前整体偏移量的比值;
将所述当前数据区间的偏移率与额定偏移率进行比较;
当所述当前数据区间的偏移率大于所述额定偏移率时,确定所述当前
数据区间中最大值数据点和最小值数据点、以及位于所述最大值数据点
和最小值数据点之间的数据点均为异常数据点,所述最大值数据点和所
述最小值数据点组成的区间为异常数据区间;
以所述步进长度和区间宽度进行区间步进,将下一个数据区间作为当
前数据区间,重复所述获取当前数据区间的最大值和最小值,直到遍历
完所述目标数据,得到所有的异常数据点、异常数据区间和所述目标数
据的整体最大值和整体最小值。
2.根据权利要求1所述的方法,其特征在于,所述确定当前数据区
间中最大值数据点和最小值数据点、以及位于所述最大值数据点和最小
值数据点之间的数据点均为异常数据点之后,还包括:
对所述异常数据点进行分类;
其中,所述对异常数据点进行分类,包括:
比较所述当前异常数据区间中第一个异常数据点和第二个异常数据
点的大小;
当所述第一个异常数据点小于所述第二个异常数据点时,确定所述第

\t一个异常数据点为异常增大的起始数据点,所述当前异常数据区间中的
最后一个异常数据点为异常增大的结束数据点;
当所述第一个异常数据点大于所述第二个异常数据点时,确定所述第
一个异常数据点为异常减小的起始数据点,所述当前异常数据区间中的
最后一个异常数据点为异常减小的结束数据点。
3.根据权利要求2所述的方法,其特征在于,还包括:
以遍历的方式检测所有异常数据点,祛除不符合预设要求的异常数据
点,确定最终的异常数据点;
其中,所述以遍历的方式检测所有异常数据点,祛除不符合预设要求
的异常数据点,确定最终的异常数据点,包括:
判断当前异常数据点的位置是否在所述目标数据的整体最大值和整
体最小值的位置之后;
当所述当前异常数据点的位置在所述目标数据的整体最大值和整体
最小值的位置之后时,判断所述当前异常数据点与上一个类别相同的异
常数据点之间的距离与所述步进长度之间的关系;
当所述当前异常数据点与上一个类别相同的异常数据点之间的距离
大于所述步进长度时,确定所述当前异常数据点为异常点;
当所述当前异常数据点与上一个类别相同的异常数据点之间的距离
等于所述步进长度时,将所述当前异常数据点的类别添加到所述上一个
类别相同的异常数据点中,并删除所述当前异常数据点;
当所述当前异常数据点与上一个类别相同的异常数据点之间的距离
小于所述步进长度时,在所述当前异常数据点所属类别中,祛除一个无
效的异常数据点;
将下一个异常数据点作为当前异常数据点,重复上述过程,直到遍历
完所有的异常数据点。
4.根据权利要求3所述的方法,其特征在于,还包括:
当所述当前异常数据点的位置不在所述目标数据的整体最大值和整
体最小值的位置之后时,判断所述当前异常数据点所属的异常数据区间
的最大值与最小值的差值是否大于所述目标数据的整体额定偏差值;
当所述当前异常数据点所属的异常数据区间的最大值与最小值的差
值大于所述目标数据的整体额定偏差值时,判断所述当前异常数据点与
上一个类别相同的异常数据点之间的距离与所述步进长度之间的关系;
当所述当前异常数据点所属的异常数据区间的最大值与最小值的差
值不大于所述目标数据的整体额定偏差值时,确定所述当前异常数据点
为无效异常数据点,祛除所述当前异常数据点;
其中,所述目标数据的整体额定偏差值为所述目标数据的整体最大值
和整体最小值的差值与所述额定偏移率的乘积。
5.根据权利要求3所述的方法,其特征在于,所述在所述当前异常
数据点所属类别中,祛除一个无效的异常数据点,包括:
判断所述当前异常数据点的类别;
当所述当前异常数据点为异常增大的起始数据点时,保留序列小的异
常数据点,删除序列大的异常数据点;
当所述当前异常数据点为异常增大的结束数据点时,保留序列大的异
常数据点,删除序列小的异常数据点;
当所述当前异常数据点为异常减小的起始数据点时,保留序列小的异
常数据点,删除序列大的异常数据点;
当所述当前异常数据点为异常减小的结束数据点时,保留序列大的异
常数据点,删除序列小的异常数据点。
6.一种检测异常数据区间的数据挖掘系统,其特征在于,该系统包
括:
第一确定单元,用于确定区间宽度和步进长度,以区间步...

【专利技术属性】
技术研发人员:何伟
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1