【技术实现步骤摘要】
一种隔离分布核构建方法、异常数据检测方法及装置
本专利技术涉及机器学习和数据挖掘
,更具体地说,涉及一种隔离分布核构建方法、异常数据检测方法及装置。
技术介绍
在现有的异常数据检测的应用中,由于使用了具有无限维度特征映射的数据独立内核,OCSVM的运行速度比基于树的异常检测器iForest慢几个数量级,并且检测精度也较弱。在集群的背景下,最新的可伸缩内核k-means必须使用超级计算机的特殊硬件来处理数百万个数据点的数据集,然而这是一种缓解方法,没有从根本上解决时间复杂度高的问题。加速基于内核的算法的一种重要方法是内核函数的逼近,其目的是产生用户可控制的有限数量的代理特征,以逼近具有无穷维特征映射的所选非线性内核函数。成功的方法有如下两种:(1)嵌入方法,该方法使用给定数据集中的样本点构造低秩r矩阵,并得出代理特征数据的矢量表示;(2)基于傅立叶变换推导随机特征,与给定数据集无关。两种方法均使用代理特征生成所选非线性内核的近似特征映射,这些特征旨在用作线性学习算法的输入,这一类算法可以高效运行以处理大规模数据集 ...
【技术保护点】
1.一种隔离分布核构建方法,包括如下步骤:/n使用隔离空间划分机制从给定数据集D中产生t个空间划分W∈V
【技术特征摘要】
1.一种隔离分布核构建方法,包括如下步骤:
使用隔离空间划分机制从给定数据集D中产生t个空间划分W∈Vψ(D);
根据空间划分Vψ(D)产生隔离内核的特征映射Φ(·|D);
定义隔离内核;
根据隔离内核,定义隔离分布核及隔离分布核的特征映射。
2.根据权利要求1所述的一种隔离分布核构建方法,具体包括如下步骤:
使用隔离空间划分机制从给定数据集D中产生t个空间划分Wi∈Vψ(D),每一个划分Wi都有固定数量ψ个隔离分区θj:Vψ(D)用于产生隔离内核的特征映射Φ(·|D);
根据空间划分产生隔离内核的特征映射Φ(·|D);
定义隔离内核:
其中,κI点内核衡量数据集中两个数据点x,y的相似度;
给定S是分布PS中的一个样例数据,隔离分布核的特征映射
定义隔离分布核:
T是分布PT中的一个样例数据。
3.一种异常数据检测方法,包括如下步骤:
映射输入空间中数据点x∈D到希尔伯特空间;
采用权利要求1或2所述的方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
4.根据权利要求3所述的一种异常数据检测方法,其特征在于:
所述的相似性检测即计算
如果x~PD,那么大或趋于1,越接近于1,x是PD的一部分概率越大;
如果那么小或趋于0,越接近于0,x是PD的一部分概率越小;
其中δ(x)是x的狄拉克度量函数;
用于排列D数据集中的不同点,取前m个点,视作异常。
5.一种异常数据检测方法,包括如下步骤:
对输入空间中数据群中每个群T~PT映射到一级希尔伯特空间中的点一级希尔伯特空间的整个数据集表示为DH;
映射一级希尔伯特空间的点z到二级希尔伯特空间的点
映射一级希尔伯特空间的数据集到二级希尔伯特空间的点
衡量二级希尔伯特空间的与的相似度
根据相似度排序找出尔伯特空间的异常点,为对应输入空间中异常群。
6.根据权利要求5所述的一种异常数据检测方法,其特征在于:
在第一和第二级的希尔伯特空间分别使用两层的隔离分布核映射与
一级隔离分布核将输入空间中的每个群T~PT映射到希尔伯特空间中的一个点一级希尔伯特空间的整个数据集表示为DH;
二级映射方式为,一级希尔伯特空间中数据点z∈DH到二级希尔伯特空间点的转换,其中,是二级隔离分布核的特征映射,它也将一级希尔伯特空间中的数据集DH映射到希尔伯特空间中的点
二级隔离分布核使用度量一级希尔伯特空间中δ(z)相比数据集的分布的相似性。
7.一种隔离分布...
【专利技术属性】
技术研发人员:陈开明,徐碧村,鷲尾隆,周志华,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。