一种大数据流中的基于最近邻的时间敏感性异常检测方法技术

技术编号：21344285 阅读：22 留言：0更新日期：2019-06-13 22:45

本发明专利技术提供一种大数据流中的基于最近邻的时间敏感性异常检测方法，属于大数据流、异常检测技术领域，核心是一个以LSH抽样视图为基础的统计估计器，滑动窗口使用确定波模型，将估计确定波窗口内多个随机时间区间的计数和方差以监测数据在不同时间区间的分布，能够快速寻找大数据流中的各数据的邻居，降低计算开销，无需单独为每个数据保存其邻居信息，节省空间占用，提高更新效率，基于时间敏感性能够快速判断数据分布是否异常以及异常发生的时间范围。

A Time Sensitive Anomaly Detection Method Based on Nearest Neighbor in Large Data Stream

The invention provides a time-sensitive anomaly detection method based on nearest neighbor in large data flow, belonging to the technical field of large data flow and anomaly detection. The core of the method is a statistical estimator based on LSH sampling view. The sliding window uses a deterministic wave model to estimate the counts and variances of multiple random time intervals in a wave window to monitor data in different time intervals. Distribution can quickly find the neighbors of each data in large data streams, reduce computing overhead, save space occupation and improve update efficiency without saving neighbor information for each data. Based on time sensitivity, it can quickly judge whether the data distribution is abnormal and the time range of abnormal occurrence.

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据流中的基于最近邻的时间敏感性异常检测方法
本专利技术属于大数据流、异常检测
，具体涉及一种对时间敏感的异常检测方法。
技术介绍
数据流中的异常检测是欺诈检测、计算机网络安全、医疗和公共卫生异常检测等几个领域的重要任务。异常检测的目标是检测数据中行为或者分布与其他数据差异很大的数据，即离群点。例如在肝部肿瘤检测中，一旦血液中的甲胎蛋白含量大大超过正常值，那么该患者有极大的可能患有肝癌。异常检测帮助发现数据中这种不符合期望行为的异常数据。数据流是一种特殊数据模型，它往往是无限、高速、多维、动态变化的。数据流的新特性给异常检测带来了一些必须考虑的问题，例如如何存储无限的规模庞大的数据，如何使得数据处理速度与数据流速相匹配，如何处理动态更新的高维数据并且从中获取关键信息。由于异常定义的固有模糊性，例如如何定义常规行为，异常与常规行为不一致程度等，异常检测仍然不是一个容易的问题。考虑到数据流的新特性，异常检测问题变得更加复杂异常检测分为监督的和无监督的检测。监督异常检测利用机器学习算法(例如分类)对标记为异常/非异常的数据集进行检测。然而由于缺少关于异常与否的标签信息，监督场景在实际应用中很少发生。因此无监督的异常检测更为常见，它不需要任何标签信息。数据流中的无监督异常检测可以大致分为三类：1)基于统计，2)基于聚类和3)基于最近邻。在基于统计的方法中，目标是学习数据集的正常情况下的统计模型。此后，不符合该模型的数据被标记异常。然而，这种需要关于数据集的基础分布的先验知识，对于随时间动态变化的数据流是不可用的。聚类数据流近年来已成为一个有趣的话题，并...

【技术保护点】
1.一种大数据流中的基于最近邻的时间敏感性异常检测方法，其步骤包括：根据大数据流中数据的维度确定数组参数K和L和阈值参数α和β，创建一个L行2

【技术特征摘要】
1.一种大数据流中的基于最近邻的时间敏感性异常检测方法，其步骤包括：根据大数据流中数据的维度确定数组参数K和L和阈值参数α和β，创建一个L行2K列的二维数组DW_W，数组的每一项是一个确定波窗口，初始化生成KL个随机向量wij，用于构建算法中的L个哈希函数；对到来的大数据流中的数据，利用上述哈希函数将数据哈希到哈希表即2KL个确定波窗口内，每个哈希函数对应一行；计算对应确定波窗口的计数估计c，进而计算上述算法开始至当前的计数估计的平均值μ，如果c<αμ，则判定为数据异常；估计确定波窗口多个随机时间区间的计数c1,c2,…,cw，得到方差δ，进而计算上述算法开始至当前的所有确定波窗口方差的平均值δ'，如果δ>βδ'，则判定为数据异常。2.如权利要求1所述的方法，其特征在于，所述哈希函数采用签名随机投影技术，初始化随机生成的随机向量wij～N(0,1),i∈[1,L],j∈[1,K]。3.如权利要求2所述的方法，其特征在于，所述L个哈希函数为Hi(x)＝[hi1(x)；hi2(x)；…；hiK(x)],i∈[1,L]；对...

【专利技术属性】
技术研发人员：吴广君，贾思宇，张磊，赵志慧，李军，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人