一种双阈值顺序聚类方法技术

技术编号:24758044 阅读:30 留言:0更新日期:2020-07-04 09:35
本发明专利技术公开了一种双阈值顺序聚类方法,应用于顺序聚类系统中,所述顺序聚类系统包括数据库与处理器,所述方法包括以下步骤:S1:处理器从数据库提取数据集X={x}

A double threshold sequential clustering method

【技术实现步骤摘要】
一种双阈值顺序聚类方法
本专利技术涉及机器学习和数据挖掘领域,更具体地,涉及一种双阈值顺序聚类方法。
技术介绍
聚类是一种无监督的数据分析方法,主要处理没有先验信息的数据,广泛用于数据挖掘领域。一般认为将物理或抽象的数据对象集合分成由相似的数据对象组成的多个分组或者簇的过程被称为聚类,参见图1。图1是具有4个自然簇的二维数据,每个颜色代表一个自然分组。由聚类所生成的分组或者簇是一组数据对象的集合,同一个分组或者簇中的数据对象彼此相似,不同分组或者簇中的数据对象彼此相异。簇内数据对象越相似,聚类效果越好。目前发展起来的聚类方法有很多种,大多为层次聚类和划分聚类。而顺序聚类算法独立于其他聚类方法,它们更直接而且更快速,适用于密集型聚类。这种算法需要把特征向量依次使用一次或多次,过程简单但也有缺点。顺序聚类算法对整个数据集X(有N个数据/向量)进行一次扫描,每次迭代中,计算当前向量与聚类的距离。因为最后的聚类数Q被认为远小于N,所以可见算法的复杂度是O(N)。现有的顺序聚类算法阈值的设定没有依据。若阈值过小,会生成不必要的聚类本文档来自技高网...

【技术保护点】
1.一种双阈值顺序聚类方法,其特征在于,应用于顺序聚类系统中,所述顺序聚类系统包括数据库与处理器,所述方法包括以下步骤:/nS1:处理器从数据库提取数据集X={x}

【技术特征摘要】
1.一种双阈值顺序聚类方法,其特征在于,应用于顺序聚类系统中,所述顺序聚类系统包括数据库与处理器,所述方法包括以下步骤:
S1:处理器从数据库提取数据集X={x}n,规模为n,n∈N;
S2:处理器确定阈值和阈值的取值范围,其中,
S3:处理器确定聚类簇数量Q的值;
S4:根据阈值阈值和聚类簇数量Q进行顺序聚类,直到所有数据点都被归类。


2.根据权利要求1所述的双阈值顺序聚类方法,其特征在于,步骤S2中确定阈值和阈值具体为:
S2.1:每次以相同的顺序表示数据,不同的阈值执行多次顺序聚类;
S2.2:根据不同阈值下的顺序聚类结果计算平均畸变程度,所述平均畸变程度为所有簇的畸变程度的平均,簇的畸变程度为每个簇的质点与簇内样本点的平方距离误差和;
S2.3:以横坐标为值,纵坐标为平均畸变程度作图,以图中平均畸变程度趋于稳定的拐点作为阈值
S2.4:阈值选为阈值阈值的相邻点对应的阈值选为阈值


3.根据权利要求2所述的双阈值顺序聚类方法,其特征在于,步骤S3中确定聚类簇数量Q的值,具体为:
以不同的顺序表示数据,以相同的阈值,执行多次顺序聚类,取不同顺序情况下各聚类簇数量平均值q作为聚类簇数量Q。


4.根据权利要求3所述的双阈值顺序聚类方法,其特征在于,步骤S4中根据阈值阈值和聚类簇数量Q进行顺序聚类,具体为:
S4.1:通过顺序排列好数据集中的所有数据,依次进行运...

【专利技术属性】
技术研发人员:晏开谢胜利
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1