当前位置: 首页 > 专利查询>河海大学专利>正文

基于角度方差的大规模高维离群数据检测方法技术

技术编号:12309580 阅读:103 留言:0更新日期:2015-11-11 18:21
本发明专利技术公开了一种基于角度方差的大规模高维离群数据检测方法,属于离群数据挖掘技术领域,包括以下步骤:(1)数据点集投影到与随机向量正交的超平面上;(2)计算投影后的数据点的角度方差无偏期望值;(3)计算各数据点的角度方差;(4)确定离群数据:角度方差最小的n个点为数据集离群度最大的离群点。本发明专利技术可以高效快速地从大规模高维数据中发现隐藏在其中的离群数据。

【技术实现步骤摘要】

本专利技术涉及一种,属于离群数据挖 掘

技术介绍
离群数据挖掘技术是目前数据挖掘领域的研究热点之一,广泛应用于网络流量入 侵检测、交通事故检测、科学数据测量异常检测等领域。目前已有的离群数据挖掘主要基于 距离或最近邻概念进行离群挖掘,在高维数据中,高维空间距离和最近邻已经不再具有欧 式空间的特性,就会出现距离维度灾难的情况。在高维数据中,由于离群点远离其它数据 点,离群点与其它点组成的向量的夹角变化不大,而非离群点被包围在数据点中,非离群点 与其它点组成的向量的夹角变化较大,因此根据夹角变化的方差可以发现隐藏在高维数据 中的离群数据。
技术实现思路
本专利技术的目的在于克服现有技术中的不足,提供一种基于角度方差的大规模高维 离群数据检测方法,可以高效快速地从大规模高维数据中发现隐藏在其中的离群数据。 为达到上述目的,本专利技术所采用的技术方案是:基于角度方差的大规模高维离群 数据检测方法,包括如下步骤: 步骤一:数据点集投影到与随机向量正交的超平面上; 步骤二:计算投影后的数据点的角度方差无偏期望值; 步骤三:计算各数据点的角度方差; 步骤四:确定离群数据:角度方差最小的η个点为数据集离群度最大的离群点,其 中η为高维离群数据中点的个数。 所述步骤一包括如下步骤: 步骤1-1)形式化数据集:大规模高维离群数据可形式化为: 给定的数据集= ,点PeD,V.点AeD\{P},点BGD\{P,A}, 步骤1-2)定义基于角度的离群因子OF(P),即角度方差形式化为: 大规模高维离群数据集D,IDI = n,点P e D,义点A e D\ {P},点B e D\ {P,A}, 点P的离群因子OF (P)定义为的方差,一阶矩为 步骤1-3)数据点集投影到与随机向量正交的超平面上,其中向量坐标从标准正 态分布N (0, 1)中随机选择: 依据投影之后的数据,估计每个点的角度无偏期望值,其中随机向量取Vl,Vf ,ViG Rd,各向量坐标从标准正态分布N(0, 1)中独立选取,选取独立随机向量,对于向 量V1,只有当向量M和宛涖于与V1正交的超平面不同侧时,Χ^ =1,这种情况的概率与 角度成正比,采用如下选取方式: 所述步骤二是根据随机超平面投影来估计个数据点的角度方差,包括一阶矩估计 和二阶矩估计,具体包括如下步骤: 步骤2-1) -阶矩估计:对于向量V e Rd和点Ρ, _ ·Λ^η. 其中,羡示由随机投影时,P点左侧的点组成的表示由随机投影时,P点右侧的点组成的集合,即为P点和其它点的角度期望无偏估计值; 步骤2-2)二阶矩]古计:对于点P,随机确定集合D\{P}的次序为\(1 = 1,2…η),对于使用向量V1后的每一个投影取两个向量X u Y1 e {〇, 1},因此有第k个投影 坐标与集合D\{P}第k个点对应;如果集合的第k个点位于分区的左边则向量X1SY 1第让 个坐标为1,如果集合的第k个点位于分区的右边则向量&或Y 1第k个坐标为0 ;,其中(X1Y1)为向量X 1, Y1的外积,且P的对角线元素为〇,因此,f 就是t次投影后A位于分区左边,B位于分区右边的次数,可以根据矩阵P的元素估计点P 所述步骤四中确定离群数据的具体方法如下: 步骤4-1)将步骤三中所有数据点的角度方差按照大小进行排序,得到角度方差 数列L ; 步骤4-2)划分角度方差序列L为2类:CdP C B,Ca为数值较小的一类,C B为数值 较大的一类; 分类算法步骤为:依次比较数据序列L中的前后数据,如果数值变化大于某一阈 值ε,则该数据及其后面所有的数据都划分为类C b,其中ε由用户确定,BP 4-3)确定离群点,具体方法为: 获得的类别Ca,如果Ca的数据个数大于某一阈值δ,则没有检测到离群点,否则C a 中所有数据对应的点为离群点,其中S由用户设定。 与现有技术相比,本专利技术所达到的有益效果是:本专利技术提供的基于角度方差的大 规模高维离群数据检测方法,能有效克服基于高维距离和最近邻等离群检测方法的"维度 灾难"问题,利用本专利技术可以广泛应用于信用卡欺诈检测、交通事故检测、科学数据测量异 常检测等高维数据中。【附图说明】 图1是本专利技术方法的流程图。【具体实施方式】 下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术 的技术方案,而不能以此来限制本专利技术的保护范围。 如图1所示,,包括如下步骤: 步骤一:数据点集投影到与随机向量正交的超平面上; 步骤1-1)形式化数据集:大规模高维离群数据可形式化为: 给定的数据集 = 点 P e D,V,点 A e D\{p},点 B e D\{P,A}角度; 步骤1-2)定义基于角度的离群因子OF(P),即角度方差形式化为: 大规模高维离群数据集D,IDI = n,点P e D,Y点A e D\ {P},点B e D\ {P,A}, 点P的离群因子OF⑵定义为 步骤1-3)数据点集投影到与随机向量正交的超平面上,其中向量坐标从标准正 态分布N (0, 1)中随机选择: 依据投影之后的数据,估计每个点的角度无偏期望值,其中随机向量取V1, V2,… ,ViG Rd,各向量坐标从标准正态分布N(0, 1)中独立选取,选取独立随机向量Xks当前第1页1 2 本文档来自技高网...

【技术保护点】
基于角度方差的大规模高维离群数据检测方法,其特征在于,包括如下步骤:步骤一:数据点集投影到与随机向量正交的超平面上;步骤二:计算投影后的数据点的角度方差无偏期望值;步骤三:计算各数据点的角度方差;步骤四:确定离群数据:角度方差最小的n个点为数据集离群度最大的离群点,其中n为高维离群数据中点的个数。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘文婷查伟
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1