【技术实现步骤摘要】
一种具有自适应噪声检测的非参数聚类方法
[0001]本专利技术涉及聚类方法,特别涉及一种具有自适应噪声检测的非参数聚类方法。
技术介绍
[0002]作为聚类技术的一个重要分支,图聚类方法在数据挖掘和模式识别领域得到了极大的关注。
[0003]构造图主要有三种类型,但各有其局限性。全连通图时间复杂度很高、ε
‑
邻域图参数不容易确定,k
‑
近邻图需要预先设定参数。K
‑
近邻图只存储每个点的k个相邻点的边。由于其简单性,该图及其变体版本在图聚类方法中被广泛应用。例如,使用1
‑
最近邻图来表示数据并查找簇结构;CutPC方法基于的自然临近图进行数据表示、噪声检测和聚类。通过将图的连通分量的判断与簇的数量相加来改进自然邻近图。尽管如此自然邻近图是有局限的,因为它是一个没有权重的无向图。
[0004]尽管自然临近图可以有效地表示数据并挖掘非线性模式,但噪声严重影响聚类结果。因此,名为CutESC的方法使用边缘阈值进行边缘切割,以基于k
‑
近邻图排除噪声。CHKNN设置另一个参数来控制检测噪声的数量,并使用这个参数与每个点的相互最近邻居的数量之间的关系来检测噪声。显然,CHKNN的性能依赖于适当的参数。方法OPS应用基于k
‑
近邻图的重构方法来进行噪声切割,引入LASSO正则化模型和优化方法进行特征选择。CutPC假设每个点的密度不同,它基于邻域密度检测噪声,因此受到密度的严重限制。这些噪声检测方法的共同特点 ...
【技术保护点】
【技术特征摘要】
1.一种具有自适应噪声检测的非参数聚类方法,其特征在于,包括如下步骤:S1:构造加权自然邻居图wNaNG来表示原始数据,加权自然邻居图中数据样本由节点表示,数据样本之间的相似性由距离权重表示,数据样本与邻居的连接关系由连接边表示,构造的wNaNG由连接矩阵C
ij
表示,C
ij
的每个元素对应于wNaNG的一条连接边e
ij
;S2:非参数噪声检测,从加权自然邻居图中提取五个连通属性,并通过五个连通属性将原始数据划分为干净数据和噪声,所述五个连通属性包括双向自然邻居数、反向邻居数、领域密度和反向领域密度以及每个对象的方向多样性;从wNaNG中移除噪声所对应节点和边缘节点以及连接到噪声所对应节点和边缘节点的连接边获得干净数据集和纯连接矩阵;S3:聚类并将噪声分别分配给它们最近的簇,使用Tarjan方法搜索干净数据的加权自然邻近图中的强连通分量,强连通分量的数量是原始数据集中簇的数量,然后将移除噪声所对应节点和边缘节点分配给最近的簇。2.如权利要求1所述的具有自适应噪声检测的非参数聚类方法,其特征在于:所述S1中构造wNaNG的具体步骤如下:给定自然集中的数据集V={x1,x2,
…
,x
n
},其中包含n个数据样本,其中d∈N,其中d表示数据的维度,N表示自然数,x
n
表示第n个数据样本;加权自然临近图由G=(V,E)表示,E为所有连接边的集合,并且有ν是μ的自然邻居,μ表示V中的一个数据样本,节点之间的连接边e
ij
定义如式(1)所示:其中w
ij
表示距离d(x
i
,x
j
),其中x
i
,x
j
分别表示第i个数据样本和第j个数据样本,NaN(x
j
)表示x
j
的自然邻居。3.如权利要求2所述的具有自适应噪声检测的非参数聚类方法,其特征在于:所述S2中从加权自然邻居图中提取五个连通属性的步骤如下:领域密度:x
i
的邻域密度定义为x
i
到所有邻居的平均距离,如式(2)所示其中k是自然邻域特征值λ,即x
i
的邻居数;反向领域密度:x
i
的反向邻域密度定义为所有反向邻居到x
i
的平均距离,如式(3)所示。其中,k
r
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。