The invention provides a big data environment for distributed multidimensional outlier detection methods, data segmentation, input data set the dimension of input data set for segmentation based on the formation of multiple data bucket; according to the data of bucket cut out of each dimension on the formation of non balance two binary tree encoding a plurality of data; barrel based on non balance two binary encoding tree segmentation assigned to each computing node; in each operation node calculation the relative amount of each data point of the outlier; selection of outlier is greater than or equal to the threshold of the data points, forming abnormal point set.
【技术实现步骤摘要】
大数据环境下的分布式跨维度异常数据检测方法
本专利技术涉及大数据处理
,且特别涉及一种大数据环境下的分布式跨维度异常数据检测方法。
技术介绍
随着大数据分析和数据挖掘技术的不断发展,数据的体量正变得越来越大,在这大量的数据中,异常数据的数量也随着数据体量的增大而增多,异常数据不同于数据集中的常规数据,其特性偏离常规数据,使得数据分析方法会因为这些数据的存在而使分析结果存在较明显的误差。传统的数据挖掘活动前,数据是经过精心挑选的,保证的数据的完整性和一致性。但大数据环境下的海量数据,无法进行人工的挑选,因此异常数据检测就有十分重要的作用。同时,异常数据,也有其价值,如在信用卡欺骗、网络入侵检测、灾害预警、故障诊断、图像处理分析等领域都是很有价值的数据依据。现有的异常数据检测技术主要有集中式异常数据点检测和分布式异常数据点检测两种。其中集中式异常数据点检测技术属于传统的数据挖掘领域的技术,主要有基于统计的数据集概率分布或模型来筛出严重偏离分布或模型的数据点的检测算法,基于距离的将无足够多相邻数据点的数据点看作异常数据的异常数据点检测算法,基于一定范围内数据点个数及各数据点间的距离来判断异常数据点的数据密度方法,以及基于序列异常的偏差挖掘算法。但这些算法存在可移植性差,对局部数据的异常数据点无能为力,参数设置繁琐,人为因素影响较大和无法应用于多维数据集的缺点和问题。而现有的分布式异常数据点检测技术对异构分布式并行计算环境的适配均存在一定程度的问题,很大程度上存在数据切分不合理,数据分配不倒塌,磁盘I/O和网络I/O较高,开销过大的不足。
技术实现思路
本专利技 ...
【技术保护点】
一种大数据环境下的分布式跨维度异常数据检测方法,其特征在于,包括:数据切分,基于输入数据集的维度对输入数据集进行切分,形成多个数据桶;根据每一维度上切分出来的数据桶形成非平衡二叉编码树;基于非平衡二叉编码树将切分出来的多个数据桶分配到各运算节点上;在各个运算节点上计算执行每个数据点的相对离群量;筛选出相对离群量大于或等于设定阈值的数据点,形成异常点集合。
【技术特征摘要】
1.一种大数据环境下的分布式跨维度异常数据检测方法,其特征在于,包括:数据切分,基于输入数据集的维度对输入数据集进行切分,形成多个数据桶;根据每一维度上切分出来的数据桶形成非平衡二叉编码树;基于非平衡二叉编码树将切分出来的多个数据桶分配到各运算节点上;在各个运算节点上计算执行每个数据点的相对离群量;筛选出相对离群量大于或等于设定阈值的数据点,形成异常点集合。2.根据权利要求1所述的大数据环境下的分布式跨维度异常数据检测方法,其特征在于,数据切分的方法包括:获取待切分的数据桶或输入数据集在某一维度上的中值;以该中值对待切分的数据桶或输入数据集沿所述某一维度进行切分,形成两个子数据桶;当形成的子数据桶中数据点的数量大于或等于平均运算节点数量时,对形成的子数据桶在另一维度上进行再次切分,直到形成的子数据桶上数据点的数量小于平均运算节点数量。3.根据权利要求1所述的大数据环境下的分布式跨维度异常数据检测方法,其特征在于,基于非平衡二叉编码树将切分出来的多个数据桶分配到各运算节点上的方法包括:以分布式计算环境中运算节点集合Mset为输入,对切分后的数据桶集合Bset进行降序排列得到取中前COUNT(Mnode)个数据桶分别分配给Mset中的每一个节点,COUNT(Mnode)为分布式计算环境中运算节点的数量;计算运算节点集合Mset中的每一个节点现已分配的数据桶中所有数据点dpoint的数量的均值,记为初始化空结点集合Mtmp,将运算节点集合Mset中所有分配到数据点dpoint的数量小于的节点加入空结点集合Mtmp;对空结点集合Mtmp中的节点按其包含的数据点dpoint的数量升序排列,得到确定与未被分配的数据桶biunalloc邻接的数据桶,将未被分配的数据桶biunalloc分配给和它邻接的数据桶最多的节点mi。4.根据权利要求3所述的大数据环境下的分布式跨维度异常数据检测方法,其特征在于,确定一个数据桶的邻接数据桶的方法为:获取每一个数据桶在非平衡二叉编码树中的编...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。