一种非监督异常数据检测算法制造技术

技术编号：22330768 阅读：38 留言：0更新日期：2019-10-19 12:24

本发明专利技术提供了一种非监督异常数据检测算法，涉及技术领域，包括将输入的数据点与历史数据进行比较，获取历史记录中相关的条目，剔除不相关条目；通过若干静态统计算法分别对比较之后的数据点进行评分并输出分数；通过归一化算法集成上述各个静态统计算法的分数，并产生最终分数输出；将最终分数和阈值进行比较后，对数据进行分类标记。本发明专利技术采用多种算法组合的形式实现数据异常检测，结果通过多种算法进行独立评分最后共同决策，提高了异常检测的可靠性。

An unsupervised anomaly data detection algorithm

全部详细技术资料下载

【技术实现步骤摘要】
一种非监督异常数据检测算法
本专利技术涉及一种基于上下文的非监督异常检测机器学习算法，尤其是一种联合使用统计方法和分类归并方法由多种算法得到共识结果的非监督异常检测算法，属于数据异常检测

技术介绍
越来越多的数据通过网络传输使得网络变得越来越拥挤，这种数据的增长可能会导致异常，比如从一端发送的数据是否能在另一端及时、恰当地接收到。随着现代数字通信领域的发展，异常检测方面的技术进步已经成为非常重要的一方面，亟需找到更快、更有效的方法来解决异常检测问题。随着互联网的发展，网络中的数据流量越来越大，针对这种现象，现已有一种概率统计方法是使用自适应阈值检测方法来进行数据检测的，可以测量数值是否超过阈值的方法，这个阈值是自适应的，由过去测量值的平均值计算得到，使用一个变量来计算超过阈值的连续测量值，在连续超过一定数量的测量值后，会触发警报。在分级的数据异常检测方面，有另一种概率型方法被称为“Tiresias”，该方法将传入的数据集过滤并聚集在某些区域，其中某个区域意味着该区域中包含的数据具有较高的异常概率。Tiresias的工作原理是抽象一组传入的数据点，将其组织在网格中，然后将其划分为时间单位，一旦数据在时域中分离，异常的识别就开始了，然后对数据进行分析，以发现季节性的模式。考虑到时间序列及其季节性，该方案具有发现任何潜在异常所需的所有参数，并对所有数据集重复此过程。用该方法进行异常检测时，如果有一个非常小的子集，可能是一个单点，应该被认为是异常的，但由于它是在一个低异常的区域，那么它将被错误地归类为正常。但类似于上述提到的概率统计方法存在以下缺陷：这种...

【技术保护点】
1.一种非监督异常数据检测算法，包括以下：(1)将输入的数据点与历史数据进行比较，获取历史记录中相关的条目，剔除不相关条目；(2)通过若干静态统计算法分别对比较之后的数据点进行评分并输出分数；(3)通过归一化算法集成上述各个静态统计算法的分数，并产生最终分数输出；(4)将最终分数和阈值进行比较后，对数据进行分类标记。

【技术特征摘要】
1.一种非监督异常数据检测算法，包括以下：(1)将输入的数据点与历史数据进行比较，获取历史记录中相关的条目，剔除不相关条目；(2)通过若干静态统计算法分别对比较之后的数据点进行评分并输出分数；(3)通过归一化算法集成上述各个静态统计算法的分数，并产生最终分数输出；(4)将最终分数和阈值进行比较后，对数据进行分类标记。2.如权利要求1所述的一种非监督异常数据检测算法，其特征在于：所述步骤(2)中，所述静态算法采用泊松算法、桶聚类算法、均值算法和中值算法。3.如权利要求2所述的一种非监督异常数据检测算法，其特征在于：所述泊松算法评分是将数据建模为带有X个箱子的直方图，其中X是被建模的数据集中所有条目的最大值，具体步骤如下：第一步：通过概率质量函数计算检测值的可能性概率，计算方法如公式1：公式1：当前检测值表示为x，λ为集合的平均值；第二步：计算引用概率Pref，计算方法如公式2：公式2：第三步：计算分数，去除Pref和P(x，λ)的比值为1的值，对相似的值给出较低的分数，而对不相似的值给出较高的分数，评分方法如公式3：公式3：其中S代表分数值，P代表第一步中的可能性概率。4.如权利要求2所述的一种非监督异常数据检测算法，其特征在于：所述桶聚类算法评分步骤中，遍历所有历史数据，并创建十个同样宽的桶，每个桶都被位于a和b之间的每个值“填充”，通过计算输入数据点所在桶的高度与所有高度之和的比较，建立0到1之间的评分值，该评分值表示与传入数据点的集群匹配的历史点的数量。5.如权利要求2所述的一种非监督异常数据检测算法，其特征在于：所述均值算法评分包括以下步骤：第一步：计算标准差，计算方法如公式4：公式4：其中N是集合中元素...

【专利技术属性】
技术研发人员：张智，刘子瑜，
申请(专利权)人：杭州立宸科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人