基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法技术

技术编号:14756392 阅读:100 留言:0更新日期:2017-03-02 22:58
一种基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法,包括如下步骤:1)根据数据集的密度峰值计算出聚类中心并删除噪声;2)根据非噪声自我样本生成自我检测器;3)根据自我检测器生成非自我检测器;4)同时使用自我检测器和非自我检测器判断检测数据样本是否异常,实现数据分类。本发明专利技术提供了一种有效排除噪声的影响、时间开销较小、误判率较低的基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法。

【技术实现步骤摘要】

本专利技术涉及一种数据分类方法。
技术介绍
人工免疫系统是对生物免疫系统的模拟,具有学习能力、记忆能力和强大的信息处理能力。AIS由生物免疫系统启发而来,借鉴免疫系统的功能和原理并应用于复杂问题的解决,是最早的人工免疫系统模型。否定选择算法(NSA:Negativeselectionalgorithm)是人工免疫理论中的一种重要的检测器生成算法,它由T细胞在胸腺中成熟的模型而来,具有识别自体和异常的能力。否定选择算法(NNSA)最初由FORRESTS于1994年提出,NNSA基于字符串表示,但是受计算开销的影响,限制了应用。RNSA将检测器和抗原的属性归一化到N维实值范围,使得应用问题可以在真实值空间中定义和研究,并使得数据在二维空间中表示,具有可视化的特点。但传统的RNSA采用半径固定的检测器,这使得检测器的个数较多,并且有很多黑洞使得检测器的覆盖率不理想。可变半径的V-detector算法由ZhouJi提出,利用检测器中心和自我样本之间的距离,改变非自我检测器的半径,从而解决了传统RNSA黑洞普遍的情况,减少了检测器的数量。深层训练否定选择算法(furthertrainingNSA)是在V-detector的基础上生成了自我检测器,通过样本点和自我检测器、非自我检测器之间的距离共同判断样本点是否异常,从而提高检测率、减小虚警率。但是目前所存在的检测器都是在自我样本的基础上通过距离计算生成检测器,这就使得大量的时间浪费在了距离计算上,虽然FtNSA生成了自我检测器,但是自我检测器生成是在非自我检测器生成之后,虽然减少了对检测样本检测的时间,但是并没有减少非自我检测器距离计算的开销时间。另外目前所存在的检测方法大部分都是针对纯自我样本,没有对噪声进行筛选的过程,一旦有噪声的存在,实验的检测率将会明显的下降。而在实际的生活中,所给出的自我样本并不可能是百分百正确的。
技术实现思路
为了克服已有基于否定选择算法的数据分类方法的无法排除噪声的影响、时间开销较大、误判率较高的不足,本专利技术提供了一种有效排除噪声的影响、时间开销较小、误判率较低的基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法。本专利技术解决其技术问题所采用的技术方案是:一种基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法,所述数据分类方法包括如下步骤:1)根据数据集的密度峰值计算出聚类中心并删除噪声;2)根据非噪声自我样本生成自我检测器;3)根据自我检测器生成非自我检测器;4)同时使用自我检测器和非自我检测器判断检测数据样本是否异常,实现数据分类。进一步,所述步骤1)中,聚类过程如下:1.1)按照公式计算数据集中每一个点的密度ρi和δi,ρi为第i个数据点的密度,δi为第i个数据点的最邻近更高密度距离;1.2)画出决策图,根据聚类中心自动确定策略确定聚类中心,并且对数据集中的每个点进行划分;1.3)按照DSC算法计算每个类簇的边界密度上限ρib,并按照公式对ρib再次进行计算;1.4)将每个类簇中密度低于ρib的点标识为噪声。再进一步,所述步骤1.3)中,根据公式(5)(6)对ρb再次进行计算:ρib=ρimin(IFρib=0)(5)其中,ρib是DSC算法得出的第i个类簇边界最大密度,ρimax为第i个类簇的最大密度,ρib'为再次计算后所获得的噪声密度阈值,hc为噪声密度阈值控制参数。更进一步,所述步骤2)中,所述自我检测器生成过程如下:2.1)对每一个不是噪声的点,生成自体半径为RS的自我检测器;2.2)以每个聚类中心为圆心,以到最近噪声的距离为半径生成一个大范围检测器,并且将嵌入在这个大检测器中的常半径检测器剔除;2.3)按照(7)检查重叠的常半径检测器,任意选择一个进行剔除;其中,ci和cj为两个自我检测器的中心,Sij标志自我检测器i和自我检测器j是否被判定为重叠,若Sij为1则表示两个自我检测器重叠,只要选择其中一个剔除即可。所述步骤3)中,非自我检测器的生成过程如下:每采样到一未被自我区域覆盖的点,判断其是否与已有的非自我检测器重叠。若不重叠,以该点为圆心,到自体区域的最短距离为半径生成非自我检测器。采样过程终止的条件与参照文献1一致,参照文献1:Z.Ji,D.Dasgupta,V-detector:Anefficientnegativeselectionalgorithmwith“probablyadequate”detectorage,InformationSciences179(2009)1390–1406。本专利技术的技术构思为:由于大多数的NSA选择算法都无法对噪声进行处理,一旦噪声产生将对整个实验结果产生较大的影响。针对此问题本专利技术设计一种快速搜寻密度峰聚类方法利用聚类中心的密度比周围的点高并且到密度更高的点距离十分远的特点对自我样本进行了处理,当某一点到类聚中心的距离超过预定值,则判断为噪声。为了更好的说明此方法,给出如下定义。定义1点i的局部密度ρi即为与点i的距离少于dc的点的个数。计算公式如公式(1)所示,其中dij是第点i和点j之间的欧氏距离,dc为截断距离参数,由输入参数t决定但是在有些数据集中,每个点的密度估计可能会存在误差,严重的时候会影响算法的效果。为此,需要一种更加精确的密度计算公式(2):定义2聚类中心与密度更高点之间的距离δi公式如公式(3)所示。其中密度最高点的公式如公式(4)所示定义5聚类中心被密度更小的点所包围且与密度更高的点之间的距离很大。定义6ρb为每个类簇的边界中密度最高的点,类簇中密度高于ρb的被认为是有用数据,密度低于ρb的点被认为是噪声。在正常计算时,我们首先根据定义5得到聚类中心,即δi和ρi都很大的点为聚类中心。在聚类中心确定以后,每个点都分配给与其最邻近更高密度的点,提高的划分的效率。但是考虑到并不是所有的点都将被分配到一个类簇,否则我们将无法区别噪声和正常点。所以我们将会根据定义6对噪声进行初步区别。但是,这种噪声判断办法存在一些问题:当噪声的数量比较少,分属每个类簇的噪声之间的距离都大于dc时或只有一个类簇时,每个类簇的ρb不能被计算,即每个类簇的ρb都为0,也就是说,所有的点都是有用的,这显然是不合理的。然后再根据公式(5)(6)对ρb再次进行了计算。ρib=ρimin(IFρib=0)(5)这里,ρib是DSC算法得出的第i个类簇边界最大密度,ρimax为第i个类簇的最大密度,ρib'为再次计算后所获得的噪声密度阈值。在每个类簇中,密度高于ρib'的点为有用的点,即正常的训练数据,密度低于ρib'的点认为是隐藏在训练数据中的异常样本,也就是噪声;hc为算法输入参数,用来调节噪声密度阈值。基于自体集密度搜寻与划分聚类方法的否定选择算法(Densitysearchandclusteringdetector),简称DSC-NSA。该算法采用基于密度聚类算法对自体训练数据进行预处理,将训练数据进行聚类分析,剔除噪声并生成自我检测器,然后根据自我检测器生成非自我检测器。实验表明,DSC-NSA算法确实可以排除噪声对检测器的影响、减少了自我检测器的个数、减小程序在距离计算上的时间开销并在一定程度上减小了实验的误判率。本专利技术的有益效果主要表现在:有效排除噪声本文档来自技高网
...
基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法

【技术保护点】
一种基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法,其特征在于:所述数据分类方法包括如下步骤:1)根据自体集的密度峰值计算出聚类中心并删除噪声;2)根据非噪声自我样本生成自我检测器;3)根据自我检测器生成非自我检测器;4)同时使用自我检测器和非自我检测器判断检测数据样本是否异常,实现数据分类。

【技术特征摘要】
1.一种基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法,其特征在于:所述数据分类方法包括如下步骤:1)根据自体集的密度峰值计算出聚类中心并删除噪声;2)根据非噪声自我样本生成自我检测器;3)根据自我检测器生成非自我检测器;4)同时使用自我检测器和非自我检测器判断检测数据样本是否异常,实现数据分类。2.如权利要求1所述的基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法,其特征在于:所述步骤1)中,聚类过程如下:1.1)按照公式计算数据集中每一个点的密度ρi和δi,ρi为第i个数据点的密度,δi为第i个数据点的最邻近更高密度距离;1.2)画出决策图,根据聚类中心自动确定策略确定聚类中心,并且对数据集中的每个点进行划分;1.3)按照DSC算法计算每个类簇的边界密度上限ρib,并按照公式对ρib再次进行计算;1.4)将每个类簇中密度低于ρib的点标识为噪声。3.如权利要求2所述的基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法,其特征在于:所述步骤1.3)中,根据公式(5)(6)对ρb再次进行计算:ρib=ρimin(IFρib=0)(5)ρib′=ρib+ρimax-ρibhc---...

【专利技术属性】
技术研发人员:陈晋音苏蒙蒙章涛陈军敢杨东勇俞山青
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1