一种基于近邻自编码器的近邻异常检测系统技术方案

技术编号:27316710 阅读:22 留言:0更新日期:2021-02-10 09:50
本发明专利技术通过人工智能领域的方法,实现了一种基于近邻自编码器的近邻异常检测系统,系统设计针对KNN的降维

【技术实现步骤摘要】
一种基于近邻自编码器的近邻异常检测系统


[0001]本专利技术涉及人工智能领域,尤其涉及一种基于近邻自编码器的近邻异常检测系统。

技术介绍

[0002]异常检测是在数据集中发现其行为与预期不正常的模式的过程。异常检测算法的应用背景包括:
[0003]信息安全系统:在许多计算机系统中,系统会记录许多数据,例如操作系统调用、网络流量或其他用户行为的不同类型的数据等。这些数据经常会由于恶意活动表现出异常特征。这种活动的识别被称为入侵检测。
[0004]信用卡欺诈:由于信用卡号码等敏感信息更容易被窃取,信用卡欺诈已经变得越来越普遍。在许多情况下,未经授权使用信用卡可能会表现出不同的模式,例如在特定地点疯狂购物或进行非常大的交易。这种模式可用于检测信用卡交易数据中的异常值。
[0005]传感器检测:在许多实际应用中,传感器通常用于跟踪各种环境和位置参数。潜在模式的突然变化可能代表一些值得关注的事件。事件检测是传感器网络领域的重要应用之一。传感器检测是异常检测的一种重要的时间序列检测应用。
[0006]医学诊断:在许多医学应用中,数据是从各种设备中收集的,如磁共振成像(MRI)扫描、正电子发射断层扫描(PET)扫描或心电图(ECG)时间序列。这些数据中不寻常的模式通常反映疾病状况。
[0007]法律领域:异常检测在法律领域中有许多应用,特别是在只有通过某种实体的多个动作才能发现不寻常模式的情况下。要确定金融交易、交易活动或保险索赔中的欺诈行为,通常需要识别犯罪实体行为产生的数据中的异常模式
[0008]地球科学:大量关于天气模式、气候变化或土地覆盖模式的时空数据是通过卫星或遥感等各种机制收集的。这些数据中的异常现象为人类活动或可能是潜在原因的环境趋势提供了重要的信息。
[0009]在所有这些应用中,数据都有一个“正常”模型,异常被认为是偏离了这个正常模型。异常检测即检测此种偏离的数据挖掘技术这些意外的行为也被称为异常或异常值。异常检测在各种应用背景下都可以提供许多重要和关键的信息,例如信用卡盗窃或身份盗窃。根据大多数研究资料,异常点是指与其余数据有显著差异的数据点,Hawkins对异常的定义如下:“异常点是一种观察结果,它与其他观察结果的偏差如此之大,以至于引起怀疑,认为它是由不同的机制产生的。”当生成过程表现异常时,会导致异常值的产生。因此,异常值通常包含有关影响数据生成过程的系统和实体的异常特征的有用信息。识别这种不寻常的特征为不同背景下的数据分析提供了参考。
[0010]异常检测有广泛的应用领域,但在不同领域中的异常定义却包含相同的特征:检测出不满足数据集中大部分数据共同特征的数据。其分为经典检测方法和嵌入检测方法。
[0011]经典异常检测方法
[0012]经典异常检测方法可以分为统计方法、基于距离方法、基于密度方法、基于聚类方法、基于图的方法、基于集成(ensemble-based)的方法、基于深度学习的方法。如果按数据类型分类,则可以分为数值数据、类别数据、图像数据、文本数据、图数据、时序数据等。
[0013]统计方法是异常检测领域中最为经典的一类,是通过数据点与概率模型的关系来确定数据异常与否的方法,统计方法又可以分为参数方法(例如高斯混合模型和回归模型)和非参数方法(例如核密度估计方法)。在统计模型中,人们通过数据集对数据模型进行概率分布的建模,通过数据集中的已知数据学习概率模型的参数。通过统计模型进行异常检测的关键是概率分布模型的选择。
[0014]基于距离方法则通过计算数据点之间的距离进行异常检测推断,它基于“异常数据与其他数据点距离较远”的假设。常见的基于距离方法有K近邻。在K近邻方法中,每个数据点到其第k近邻的距离被报告为异常分。通过制定K(K>1)的值,可以识别出远离数据集中其他部分的点。当前学术界有三个版本的K近邻方法。第一,使用第K个近邻的距离作为异常分的K近邻方法,该方法具有准确度强依赖于K数值的特点,当K值选取合适时,是最准确的K近邻方法。第二,使用从第1近邻到第K近邻的距离的平均值作为异常分的平均K近邻方法。该方法中准确度并不如最佳K下的第一种方法,然而该方法由于集成了从1到k所有近邻点的信息,因此对于K的依赖程度远远小于第一种方法。第三种方法是在图数据检测中分离出来的变形。该方法首先定义了反向K近邻:当点P出现在点Q的K近邻集合中时,点P成为点Q的反向K近邻。该方法通过某点在一定距离内的反向K近邻数量作为异常分进行异常检测。
[0015]基于密度方法则基于“异常数据周围的数据点密度较低”的假设,通过计算数据点邻域内的数据点分布密度进行异常检测,经典的基于密度方法包括LOF、COF、LOFI。由于距离、聚类和密度的概念是密切相关和相互依赖的,可以认为基于密度的方法与基于聚类的方法和基于距离的方法有着密切的联系,都可以用来发现位置异常的数据点。基于密度的方法的主要缺点在于它们相对于统计方法有着昂贵的计算复杂度。同时它们在计算近邻密度时要求定义近邻域的大小,并且方法的性能对该设定十分敏感。对于需要进行增量计算或者对流数据处理的情况,由于密度计算的内敛复杂性(inherent complexity),它们则完全无能为力。与基于距离方法同样,它们对高维数据的处理能力也很有限,这是由于在高维空间中异常分变得十分相近,该类方法的异常分难以区分。
[0016]在集成学习的领域中,学习模型可以综合不同模型的优点,通过Bagging、Boosting、Stacking等方法整合出一个比每个单个模型表现都要好的方法。在异常检测领域中的基于集成方法的代表作为隔离森林。该方法通过建立隔离树的过程将数据集中点通过随机切割的方法将点分割到隔离树的叶子节点上。比较集中出现的区域中的点在分割的过程中需要更多的步骤独立切割出来,因此会出现在隔离树较深的位置。通过多次重复这个过程生成多个隔离树,将某个点在隔离森林中的平均高度作为该点的分数。分数较低的点说明分离过程越简单,更可能是异常点。
[0017]嵌入检测方法
[0018]嵌入检测方法指通过学习提取一个特征表示作为原始数据特征的提炼来进行异常检测,近年来基于神经网络的人工智能迅速发展,使用激活函数分割的多层全连接网络由于可以近似模拟任何线性、非线性函数,也被用于异常检测领域。相对于其他方法,神经网络的学习特征能力更强,经过精心设计的网络结构和目标函数可以使得网络能够精确地
学习到复杂数据集的特征,进而进行异常检测过程。其中的代表包括自编码器。
[0019]由于自编码器非线性提取高维数据特征的能力,有一批方法通过自编码器对高维数据进行异常检测,这种降维异常检测方法可以分为两种,一种是使用自编码器本身的输出重构误差进行异常检测,另一种是利用降维工具得到数据低维表示后再用异常检测方法进行检测。
[0020]目前异常检测领域通过自编码器降维之后用其他方法进行异常检测的研究成果还很少,代表作有。有研究在自编码器的隐层上中加入了L2约束,使得隐层的特征出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于近邻自编码器的近邻异常检测系统,其特征在于:系统设计针对KNN的降维-检测框架,通过输入模块导入异常数据集,经过所述KNN的降维-检测框架运算后,通过输出模块输出异常数据集异常得分,从而判断输入数据集中的异常情况;具体地,系统首先通过KD-tree计算每个数据点的K个近邻点组成的近邻集合,K∈[25,200],将近邻集合U、V和原始数据输入基于神经网路结构设计的近邻自编码器进行降维计算,集合U为某个数据点从1-近邻到m-近邻的m个数据点形成的集合;同理,集合V为某个数据点X的从(k-m+1)-近邻到K-近邻的m个数据点形成的集合,m∈[1,5],获得保持近邻关系的低维数据嵌入和每个点的重构误差,将数据嵌入和重构误差输入到K-重构-近邻检测器,得出异常分,所述近邻自编码器和所述K-重构-近邻检测器由参数选择方案确定其系统参数。2.根据权利要求1所述的一种基于近邻自编码器的近邻异常检测系统,其特征在于:所述近邻自编码器的具体实现方式为:将自编码器在隐层中对近邻关系的刻画分为两个正则项:首先,将第一项正则项设置为点和原始近邻点的集合的的距离之和的相反数;其次,使用每个点的第K近邻的距离作为异常分,即K近邻的近邻关系需要保持不变,第二项正则项设置为在隐层中点和他原始K近邻的距离;给定K近邻的参数K和范围超参数m,首先在原始空间中用KD-tree求出原始数据点的K个最近邻,设I是数据集中的一个原始数据点,K近邻的参数是K,U是I从1到M的近邻集合,V是点I从(K-m+1)到K的近邻集合,设集合U包含点I的1到m-最近邻,集合V包含点I的K-m+1到K-最近邻,将原始点和近邻集合分别输入近邻自编码器,通过原始点的重构误差和隐层内的近邻误差训练自编...

【专利技术属性】
技术研发人员:马帅刘叔正
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1