一种高维聚类数据边界检测方法及装置制造方法及图纸

技术编号：32265001 阅读：9 留言：0更新日期：2022-02-12 19:27

本发明专利技术公开了一种高维聚类数据边界检测方法及装置，该方法包括：获取待检测数据矩阵；计算待检测数据矩阵中所有数据点的k近邻对象；根据k近邻对象计算待检测数据点的平衡系数和距离校正系数，得到平衡系数向量和距离校正系数向量；计算平衡系数向量和距离校正系数向量的乘积，并对得到的乘积向量进行排序，以得到索引向量；根据索引向量确定边界点在待检测数据矩阵中的索引位置，以完成聚类数据边界检测。本发明专利技术提供的聚类数据边界检测方法相比现有技术，不仅可以针对二维平面数据实现边界检测，还能够对高维数据的聚类边界进行有效识别，且检测性能更好，准确率更高。准确率更高。准确率更高。

全部详细技术资料下载

【技术实现步骤摘要】
一种高维聚类数据边界检测方法及装置

[0001]本专利技术属于数据挖掘
，具体涉及一种高维聚类数据边界检测方法及装置。

技术介绍

[0002]数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。聚类分析作为数据挖掘中的一种非常有用的技术，主要用于从大量的数据中寻找隐含的数据分布模式及关联规则，以便于有效地进行数据挖掘。在聚类分析技术中，聚类数据边界作为一种特殊的模式，它关注于那些分布在聚类边缘处具有明确的类归属但又与类内数据存在一定差异的数据。在现实世界中，其具有广泛的实践意义，如大型医疗数据集中某种隐形遗传疾病或隐性病毒的携带人群；基因表达谱数据中的异常基因片段；异于常态的手写体签名；监控视频中的目标闯入者等。现有的国内外研究团队利用几何理论已在低维空间的聚类边界获得了一定的成功。
[0003]1996年，M.Ester等人首次提出了聚类边界的概念，打开了聚类边界检测的大门。2006年，Xia C Y等人提出了BORDER算法，该算法使用反向k近邻技术提取聚类边界。由于聚类的边界点和噪声点的反向k近邻个数均较中心点更少，因此该算法的检测结果中往往混杂了较多的聚类噪声点。
[0004]为了弥补BORDER算法的不足，邱保志等人在2007年提出了BRIM算法，该算法基于边界点邻域分布不均匀而聚类核心点邻域分布近似均匀与这一特点进行边界识别，但该算法易受聚类边界附近的噪声影响，尤其不能准确提取变化密度和多密度聚类的边界。
[0005]薛丽香等人在2009年提出了BAND算法，该算法基...

【技术保护点】

【技术特征摘要】
1.一种高维聚类数据边界检测方法，其特征在于，包括：S1：获取待检测数据矩阵；S2：计算所述待检测数据矩阵中所有数据点的k近邻对象；S3：根据所述k近邻对象计算待检测数据点的平衡系数和距离校正系数，得到平衡系数向量和距离校正系数向量；S4：计算所述平衡系数向量和所述距离校正系数向量的乘积，并对得到的乘积向量进行排序，以得到索引向量；S5：根据所述索引向量确定边界点在所述待检测数据矩阵中的索引位置，以完成聚类数据边界检测。2.根据权利要求1所述的高维聚类数据边界检测方法，其特征在于，步骤S2包括：对每一个待检测数据点，计算其与剩余待检测数据点之间的欧式距离，并选取最小的k个欧式距离对应的数据点作为当前待测数据点的k近邻对象，其中，k表示近邻个数，且k≥3。3.根据权利要求2所述的高维聚类数据边界检测方法，其特征在于，在步骤S3中，根据所述k近邻对象计算待检测数据点的平衡系数的公式为：其中，a
i
表示待检测数据点x
i
的平衡系数，x
ij
表示待检测数据点x
i
的第j个维度的元素值，表示数据点x
i
的第p个k近邻对象的第j个维度的元素值，M表示数据的维度数。4.根据权利要求2所述的高维聚类数据边界检测方法，其特征在于，在步骤S3中，根据所述k近邻对象计算待检测数据点的距离校正系数的公式为：其中，b
i
表示待检测数据点x
i
的距离校正系数，‖
·
‖2表示求欧式距离，表示数据x
i
的第p个k近邻对象。5.根据权利要求1所述的高维聚类数据边界检测方法...

【专利技术属性】
技术研发人员：夏子恒，王鹏辉，刘宏伟，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人