一种高维聚类数据边界检测方法及装置制造方法及图纸

技术编号:32265001 阅读:9 留言:0更新日期:2022-02-12 19:27
本发明专利技术公开了一种高维聚类数据边界检测方法及装置,该方法包括:获取待检测数据矩阵;计算待检测数据矩阵中所有数据点的k近邻对象;根据k近邻对象计算待检测数据点的平衡系数和距离校正系数,得到平衡系数向量和距离校正系数向量;计算平衡系数向量和距离校正系数向量的乘积,并对得到的乘积向量进行排序,以得到索引向量;根据索引向量确定边界点在待检测数据矩阵中的索引位置,以完成聚类数据边界检测。本发明专利技术提供的聚类数据边界检测方法相比现有技术,不仅可以针对二维平面数据实现边界检测,还能够对高维数据的聚类边界进行有效识别,且检测性能更好,准确率更高。准确率更高。准确率更高。

【技术实现步骤摘要】
一种高维聚类数据边界检测方法及装置


[0001]本专利技术属于数据挖掘
,具体涉及一种高维聚类数据边界检测方法及装置。

技术介绍

[0002]数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。聚类分析作为数据挖掘中的一种非常有用的技术,主要用于从大量的数据中寻找隐含的数据分布模式及关联规则,以便于有效地进行数据挖掘。在聚类分析技术中,聚类数据边界作为一种特殊的模式,它关注于那些分布在聚类边缘处具有明确的类归属但又与类内数据存在一定差异的数据。在现实世界中,其具有广泛的实践意义,如大型医疗数据集中某种隐形遗传疾病或隐性病毒的携带人群;基因表达谱数据中的异常基因片段;异于常态的手写体签名;监控视频中的目标闯入者等。现有的国内外研究团队利用几何理论已在低维空间的聚类边界获得了一定的成功。
[0003]1996年,M.Ester等人首次提出了聚类边界的概念,打开了聚类边界检测的大门。2006年,Xia C Y等人提出了BORDER算法,该算法使用反向k近邻技术提取聚类边界。由于聚类的边界点和噪声点的反向k近邻个数均较中心点更少,因此该算法的检测结果中往往混杂了较多的聚类噪声点。
[0004]为了弥补BORDER算法的不足,邱保志等人在2007年提出了BRIM算法,该算法基于边界点邻域分布不均匀而聚类核心点邻域分布近似均匀与这一特点进行边界识别,但该算法易受聚类边界附近的噪声影响,尤其不能准确提取变化密度和多密度聚类的边界。
[0005]薛丽香等人在2009年提出了BAND算法,该算法基于数据对象的变异系数来提取边界点,因此可以克服BRIM算法的缺点,但由于聚类周围噪声点的变异系数可能与部分边界的变异系数相同,导致该算法会将聚类噪声点误判为边界。
[0006]BRINK算法使用加权欧氏距离来度量数据点之间的相似性,也取得了较好的边界检测效果,但随着数据维度的增加,高维空间的稀疏性导致这种相似性的度量逐渐失效。
[0007]曹晓锋等人在2016年提出了Lever算法,该算法将高维数据在k近邻空间中的分布等效为一个杠杆的平衡性问题,聚类核心点的分布较聚类边界点的分布要更加平衡、稳定,但该算法在处理高维数据时,可能会遇到其散度系数上溢,超出计算量程的问题。
[0008]综上,现有聚类边界检查技术各自的缺点均会不同程度地降低聚类边界点的检测性能,不能有效的识别高维数据中的聚类边界,对后续的应用造成不利影响。

技术实现思路

[0009]为了解决现有技术中存在的上述问题,本专利技术提供了一种高维聚类数据边界检测方法及装置。本专利技术要解决的技术问题通过以下技术方案实现:
[0010]第一方面,本专利技术提供了一种高维聚类数据边界检测方法,包括:
[0011]S1:获取待检测数据矩阵;
[0012]S2:计算所述待检测数据矩阵中所有数据点的k近邻对象;
[0013]S3:根据所述k近邻对象计算待检测数据点的平衡系数和距离校正系数,得到平衡系数向量和距离校正系数向量;
[0014]S4:计算所述平衡系数向量和所述距离校正系数向量的乘积,并对得到的乘积向量进行排序,以得到索引向量;
[0015]S5:根据所述索引向量确定边界点在所述待检测数据矩阵中的索引位置,以完成聚类数据边界检测。
[0016]在本专利技术的一个实施例中,步骤S2包括:
[0017]对每一个待检测数据点,计算其与剩余待检测数据点之间的欧式距离,并选取最小的k个欧式距离对应的数据点作为当前待测数据点的k近邻对象,其中,k表示近邻个数,且k≥3。
[0018]在本专利技术的一个实施例中,在步骤S3中,根据所述k近邻对象计算待检测数据点的平衡系数的公式为:
[0019][0020]其中,a
i
表示待检测数据点x
i
的平衡系数,x
ij
表示待检测数据点x
i
的第j个维度的元素值,表示数据点x
i
的第p个k近邻对象的第j个维度的元素值,M表示数据的维度数。
[0021]在本专利技术的一个实施例中,在步骤S3中,根据所述k近邻对象计算待检测数据点的距离校正系数的公式为:
[0022][0023]其中,b
i
表示待检测数据点x
i
的距离校正系数,‖
·
‖2表示求欧式距离,表示数据x
i
的第p个k近邻对象。
[0024]在本专利技术的一个实施例中,步骤S4包括:
[0025]将平衡系数向量a与距离校正系数向量b的对应元素相乘,得到乘积向量c=ab,其中c
i
=a
i
b
i
,i=1,

,N;
[0026]对所述乘积向量c中的元素从大到小排序,得到排序向量d;
[0027]记录排序向量d中的元素在所述乘积向量c中的索引,以得到索引向量loc;其中,
[0028]排序向量d的第i个元素d
i
表示为loc
i
表示索引向量loc的第i个元素,表示乘积向量c中的第loc
i
个元素。
[0029]在本专利技术的一个实施例中,步骤S5包括:
[0030]设定两个不同数值的阈值λ1和λ2;
[0031]将索引向量loc的位置索引在[floor(Nλ1),floor(Nλ2)]之间的元素作为行索引,在所述待检测数据矩阵中找到对应位置的数据,即为聚类边界点;
[0032]其中,floor表示向下取整,N表示待检测数据的总数,0<λ1<λ2<1。
[0033]第二方面,本专利技术提供了一种高维聚类数据边界检测装置,包括:
[0034]数据获取模块,用于获取待检测数据矩阵;
[0035]第一计算模块,用于计算所述待检测数据矩阵中所有数据点的k近邻对象;
[0036]第二计算模块,用于根据所述k近邻对象计算待检测数据点的平衡系数和距离校正系数,得到平衡系数向量和距离校正系数向量;
[0037]第三计算模块,用于计算所述平衡系数向量和所述距离校正系数向量的乘积,并对得到的乘积向量进行排序,以得到索引向量;
[0038]边界检测模块,用于根据所述索引向量确定边界点在所述待检测数据矩阵中的索引位置,以完成聚类数据边界检测。
[0039]本专利技术的有益效果:
[0040]1、本专利技术提供的聚类数据边界检测方法相比现有技术,不仅可以针对二维平面数据实现边界检测,还能够对高维数据的聚类边界进行有效识别;
[0041]2、本专利技术提供的高维数据边界检测方法在计算平衡系数时,在杠杆平衡思想的基础上增加了按质量进行加权的方式,使得该方法检测聚类边界的性能更好,准确率更高。
[0042]以下将结合附图及实施例对本专利技术做进一步详细说明。
附图说明
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高维聚类数据边界检测方法,其特征在于,包括:S1:获取待检测数据矩阵;S2:计算所述待检测数据矩阵中所有数据点的k近邻对象;S3:根据所述k近邻对象计算待检测数据点的平衡系数和距离校正系数,得到平衡系数向量和距离校正系数向量;S4:计算所述平衡系数向量和所述距离校正系数向量的乘积,并对得到的乘积向量进行排序,以得到索引向量;S5:根据所述索引向量确定边界点在所述待检测数据矩阵中的索引位置,以完成聚类数据边界检测。2.根据权利要求1所述的高维聚类数据边界检测方法,其特征在于,步骤S2包括:对每一个待检测数据点,计算其与剩余待检测数据点之间的欧式距离,并选取最小的k个欧式距离对应的数据点作为当前待测数据点的k近邻对象,其中,k表示近邻个数,且k≥3。3.根据权利要求2所述的高维聚类数据边界检测方法,其特征在于,在步骤S3中,根据所述k近邻对象计算待检测数据点的平衡系数的公式为:其中,a
i
表示待检测数据点x
i
的平衡系数,x
ij
表示待检测数据点x
i
的第j个维度的元素值,表示数据点x
i
的第p个k近邻对象的第j个维度的元素值,M表示数据的维度数。4.根据权利要求2所述的高维聚类数据边界检测方法,其特征在于,在步骤S3中,根据所述k近邻对象计算待检测数据点的距离校正系数的公式为:其中,b
i
表示待检测数据点x
i
的距离校正系数,‖
·
‖2表示求欧式距离,表示数据x
i
的第p个k近邻对象。5.根据权利要求1所述的高维聚类数据边界检测方法...

【专利技术属性】
技术研发人员:夏子恒王鹏辉刘宏伟
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1