一种非监督异常数据检测算法制造技术

技术编号:22330768 阅读:38 留言:0更新日期:2019-10-19 12:24
本发明专利技术提供了一种非监督异常数据检测算法,涉及技术领域,包括将输入的数据点与历史数据进行比较,获取历史记录中相关的条目,剔除不相关条目;通过若干静态统计算法分别对比较之后的数据点进行评分并输出分数;通过归一化算法集成上述各个静态统计算法的分数,并产生最终分数输出;将最终分数和阈值进行比较后,对数据进行分类标记。本发明专利技术采用多种算法组合的形式实现数据异常检测,结果通过多种算法进行独立评分最后共同决策,提高了异常检测的可靠性。

An unsupervised anomaly data detection algorithm

【技术实现步骤摘要】
一种非监督异常数据检测算法
本专利技术涉及一种基于上下文的非监督异常检测机器学习算法,尤其是一种联合使用统计方法和分类归并方法由多种算法得到共识结果的非监督异常检测算法,属于数据异常检测

技术介绍
越来越多的数据通过网络传输使得网络变得越来越拥挤,这种数据的增长可能会导致异常,比如从一端发送的数据是否能在另一端及时、恰当地接收到。随着现代数字通信领域的发展,异常检测方面的技术进步已经成为非常重要的一方面,亟需找到更快、更有效的方法来解决异常检测问题。随着互联网的发展,网络中的数据流量越来越大,针对这种现象,现已有一种概率统计方法是使用自适应阈值检测方法来进行数据检测的,可以测量数值是否超过阈值的方法,这个阈值是自适应的,由过去测量值的平均值计算得到,使用一个变量来计算超过阈值的连续测量值,在连续超过一定数量的测量值后,会触发警报。在分级的数据异常检测方面,有另一种概率型方法被称为“Tiresias”,该方法将传入的数据集过滤并聚集在某些区域,其中某个区域意味着该区域中包含的数据具有较高的异常概率。Tiresias的工作原理是抽象一组传入的数据点,将其组织在网格中,然后将其划分为时间单位,一旦数据在时域中分离,异常的识别就开始了,然后对数据进行分析,以发现季节性的模式。考虑到时间序列及其季节性,该方案具有发现任何潜在异常所需的所有参数,并对所有数据集重复此过程。用该方法进行异常检测时,如果有一个非常小的子集,可能是一个单点,应该被认为是异常的,但由于它是在一个低异常的区域,那么它将被错误地归类为正常。但类似于上述提到的概率统计方法存在以下缺陷:这种方法可以得到它所访问的数据中某个区域的异常概率,或者得出数据的分布图,但是无法检测数据是否错误或分类错误。异常检测通常分为三类:监督异常检测、半监督异常检测和非监督异常检测。在监督异常检测中,将异常检测方案作为一组选定的参考值作为输入,该方案可以立即知道任何与参考数据的值或模式不匹配的传入数据是异常的,但是监督异常检测方案不适合分析具有多个或多个不同“正确性”级别的数据,除非专家的迭代参与和参考数据的更新是可维护的。半监督异常检测可以看作是监督和非监督异常检测方案的混合,因为它同时使用有标记数据和无标记数据,然而,半监督技术的可信度依赖于模型,也就是依赖于算法中的学习机制。非监督异常检测中,参考数据(如果有的话是)是不用给定标签的,它的工作是在给定的输入数据中查找与其他输入数据中呈现的值或模式不匹配的值或模式。现有很多非监督异常检测方法都是基于聚类方法的,但是所有单一的算法检测的结果都是片面的。基于此,本案由此产生。
技术实现思路
为了解决现有技术中存在的上述缺陷,本专利技术提供了一种非监督异常数据检测算法,以提高检测的可靠性。为了实现上述目的,本专利技术采取的技术方案如下:一种非监督异常数据检测算法,包括以下:(1)将输入的数据点与历史数据进行比较,获取历史记录中相关的条目,剔除不相关条目;(2)通过若干静态统计算法分别对比较之后的数据点进行评分并输出分数;(3)通过归一化算法集成上述各个静态统计算法的分数,并产生最终分数输出;(4)将最终分数和阈值进行比较后,对数据进行分类标记。作为优选,所述步骤(2)中,所述静态算法采用泊松算法、桶聚类算法、均值算法和中值算法。作为优选,所述泊松算法评分是将数据建模为带有X个箱子的直方图,其中X是被建模的数据集中所有条目的最大值,具体步骤如下:第一步:通过概率质量函数计算检测值的可能性概率,计算方法如公式1:公式1:当前检测值表示为x,λ为集合的平均值;第二步:计算引用概率Pref,计算方法如公式2:公式2:第三步:计算分数,去除Pref和P(x,λ)的比值为1的值,对相似的值给出较低的分数,而对不相似的值给出较高的分数,评分方法如公式3:公式3:其中S代表分数值,P代表第一步中的可能性概率。作为优选,所述桶聚类算法评分步骤中,遍历所有历史数据,并创建十个同样宽的桶,每个桶都被位于a和b之间的每个值“填充”,通过计算输入数据点所在桶的高度与所有高度之和的比较,建立0到1之间的评分值,该评分值表示与传入数据点的集群匹配的历史点的数量。作为优选,所述均值算法评分包括以下步骤:第一步:计算标准差,计算方法如公式4:公式4:其中N是集合中元素的个数,yi表示分布集合中每个单独的值,μ是匹配集中的均值;第二步:计算分数,计算方法如公式5:公式5:其中x是被检测的值,μ是匹配集中的均值,σ是第一步中计算出的标准差,c是一个常数。作为优选,所述中值算法评分包括以下步骤:第一步:计算绝对中位差,计算方法如公式6:公式6:MAD=median(|Yi-median(Y)|)第二步:计算分数,计算方法如公式7:公式7:其中,m是匹配集的中值,Y代表匹配集中所有的值,yi表示集合Y中的单独的值,c表示调节中值算法灵敏度的参数。作为优选,所述步骤(3)中具体包括以下步骤:第一步:分别为各个静态统计算法创建分数,将每个单独算法的分数ai作为每个级别和每个度量的输入,以及每个分布集中元素个数N作为输入,并通过公式8为每一级L和各个算法分数的度量M创建分数;公式8:第二步:计算一致意见的最终分数,将结果fi放入集合F中,计算公式如公式9:公式9:其中表示F中所有值的平均值,V是F的方差。作为优选,所述步骤(4)中,用t表示阈值,0≤t≤1,S(x)表示最终分数,S(x)≥t,该检测值为异常,标记为正结果,如果该检测是正确的则标记为真正,如果发现实际情况下应该是负结果则标记为假正;S(x)<t时,该检测值为正常,标记为负结果,如果该检测是正确的则标记为真负,如果发现在实际情况下应该是正结果则标记为假负。作为优选,所述步骤(4)中,将没有标记的数据添加到历史数据中。本专利技术的工作原理:本专利技术通过多种算法共同决策从而实现异常检测,本专利技术中算法集成了泊松(Poisson)算法、桶聚类(Bucketclustering)算法、均值算法(Meanalgorithm)、中值算法(Medianalgorithm)和一种归一化算法(NormalizationAlgorithm)。前四种算法会访问历史数据,独立的给出自己的评分,在归一化算法中对每级算法的评分都会输出一个标签分数。异常检测有“评分”和“分类”两个部分组成,归一化算法得出的一致性意见得分的分数被用来分类。采用算法集成可以不同的角度分析数据,在一组数据中以不同的方式寻找异常,一种算法的可靠性可以与其他算法进行验证,并以在线方式创建更精确的分类。本专利技术能实现如下技术效果:(1)本专利技术采用多种算法组合的形式实现异常检测,结果需要多种算法进行独立评分最后共同决策,提高了异常检测的可靠性。(2)本专利技术为数字通信中数据的不规则问题提供解决方案,实现一个基于上下文内容的支持非监督异常检测的自动异常检测方案,该方案将是一个新的概念验证框架的一部分,该框架支持已实现的异常检测技术的测试、仿真和可视化。各种异常检测方法的功能被合并到本专利技术的异常检测框架中,以便收集关于任意异常检测技术有效的结果。(3)本专利技术是基于非监督学习的异常检测,检测过程中无需为数据给定标签,因此可以避免标签数据影响未来的预测。(4)本专利技术在数本文档来自技高网
...

【技术保护点】
1.一种非监督异常数据检测算法,包括以下:(1)将输入的数据点与历史数据进行比较,获取历史记录中相关的条目,剔除不相关条目;(2)通过若干静态统计算法分别对比较之后的数据点进行评分并输出分数;(3)通过归一化算法集成上述各个静态统计算法的分数,并产生最终分数输出;(4)将最终分数和阈值进行比较后,对数据进行分类标记。

【技术特征摘要】
1.一种非监督异常数据检测算法,包括以下:(1)将输入的数据点与历史数据进行比较,获取历史记录中相关的条目,剔除不相关条目;(2)通过若干静态统计算法分别对比较之后的数据点进行评分并输出分数;(3)通过归一化算法集成上述各个静态统计算法的分数,并产生最终分数输出;(4)将最终分数和阈值进行比较后,对数据进行分类标记。2.如权利要求1所述的一种非监督异常数据检测算法,其特征在于:所述步骤(2)中,所述静态算法采用泊松算法、桶聚类算法、均值算法和中值算法。3.如权利要求2所述的一种非监督异常数据检测算法,其特征在于:所述泊松算法评分是将数据建模为带有X个箱子的直方图,其中X是被建模的数据集中所有条目的最大值,具体步骤如下:第一步:通过概率质量函数计算检测值的可能性概率,计算方法如公式1:公式1:当前检测值表示为x,λ为集合的平均值;第二步:计算引用概率Pref,计算方法如公式2:公式2:第三步:计算分数,去除Pref和P(x,λ)的比值为1的值,对相似的值给出较低的分数,而对不相似的值给出较高的分数,评分方法如公式3:公式3:其中S代表分数值,P代表第一步中的可能性概率。4.如权利要求2所述的一种非监督异常数据检测算法,其特征在于:所述桶聚类算法评分步骤中,遍历所有历史数据,并创建十个同样宽的桶,每个桶都被位于a和b之间的每个值“填充”,通过计算输入数据点所在桶的高度与所有高度之和的比较,建立0到1之间的评分值,该评分值表示与传入数据点的集群匹配的历史点的数量。5.如权利要求2所述的一种非监督异常数据检测算法,其特征在于:所述均值算法评分包括以下步骤:第一步:计算标准差,计算方法如公式4:公式4:其中N是集合中元素...

【专利技术属性】
技术研发人员:张智刘子瑜
申请(专利权)人:杭州立宸科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1