【技术实现步骤摘要】
数据聚类方法、装置以及目标分群方法
[0001]本专利技术涉及大数据分析领域,涉及寻找和处理数据集的骨干节点并完成分配,适用于各种类型的数据集的聚类过程,特别是数据聚类识别以及目标分群方法。
技术介绍
[0002]在聚类的领域内,K
‑
means是一种非常经典和经常被使用的聚类方法。K
‑
means算法具有计算复杂度极低、聚类中心的数量少、计算出的聚类中心的局部代表性强以及整体影响小(聚类中心通常仅由邻近的点影响,全局对聚类中心的影响不大)等特点,因此虽然其聚类效果并不出色且对k值十分敏感,但它十分实用于识别骨干数据。
[0003]使用K
‑
means算法找到的骨干数据集合并不唯一,且可多可少。因此,K
‑
means结果对参数k的敏感性不再是致命的缺点,不同的k值只会影响骨干节点的数量。
技术实现思路
[0004]有鉴于此,本专利技术提供了数据聚类方法、装置以及目标分群方法,目的是提升数据的聚类效果,提高聚类结果的精度,进一步可以实现对目标的精确分群。
[0005]为达到上述目的,本专利技术提供的数据聚类方法,包括如下步骤:
[0006]步骤1:输入数据集,识别数据集中的骨干数据;骨干数据是指保留原数据集中数据结构的样本集合,骨干数据具备如下三个属性:数据量小于原数据集,与元数据集具有相同的数据结构以及骨干节点组合不唯一。
[0007]步骤2:依据骨干数据,构建骨干节点的拓扑图,通过剪切边将拓扑图划 ...
【技术保护点】
【技术特征摘要】
1.数据聚类方法,其特征在于,包括如下步骤:步骤1:输入数据集,识别数据集中的骨干数据;所述骨干数据是指保留原数据集中数据结构的样本集合,骨干数据具备如下三个属性:数据量小于原数据集,与元数据集具有相同的数据结构以及骨干节点组合不唯一;步骤2:依据骨干数据,构建骨干节点的拓扑图,通过剪切边将所述拓扑图划分为多个联通子图,每个联通子图即是识别出的一个簇,则全部n个骨干节点被n
‑
1条边连接成一个全联通图;步骤3:将簇内数据点间的边称为簇内边,将簇间连接的边称为簇间边,簇间边的权重远小于簇内边的权重,将权重最小的k
‑
1条边剪切掉,得到k个联通子图;骨干节点集合被划分为k个簇;数据集中所剩余的数据点分配到所对应骨干节点的簇中,由此获得聚类结果。2.如权利要求1所述的数据聚类方法,其特征在于,所述识别数据集中的骨干数据时,使用k
‑
means算法,所述K
‑
means算法只有一个输入参数k,即为所要识别的簇的数量。3.如权利要求2所述的数据聚类方法,其特征在于,所述步骤1中,识别数据集中的骨干数据,具体包括如下步骤:步骤1.1:从数据集中随机选取k个数据点,作为初始聚类中心;步骤1.2:遍历数据集中的其余数据点,寻找每个点的最近的聚类中心,并将该点分配到其最近的聚类中心所代表的簇中;步骤1.3:计算每个簇内数据点的中心点,将中心点更新为该簇的新聚类中心;步骤1.4:重复执行步骤1.1~步骤1.3,直到聚类中心不再改变为止;步骤1.5:对步骤1.4得到的聚类中心进行修正,修正后的聚类中心不再是簇中数据点的中点,而是密度中心,即密度极值,修正后的聚类中心即为数据集的骨干数据。4.如权利要求1、2或3任一所述的数据聚类方法,其特征在于,所述构建骨干节点的拓扑图具体为:构建最优拓扑图的过程即是求解如下目标最优化解的过程:S.t.|v|=n
‑
1,即n个数据点间至少需要n
‑
1条边才能保证所有数据点联通性;其中|v|表示边的数量;n表示骨干节点的数量;v
i
为边,w(v
i
)为边v
i
的权重。5.如权利要求4所述的数据聚类方法,其特征在于,所述构建最优拓扑图的过程即是求解如下目标最优化解的过程:具体采用BPC算法进行求解,具体包括如下步骤:步骤2.1:设定三个中间变量D,D
’
和v,初始状态下,均设定为空集;步骤2.2:从D中随机选取一数据点o
α
,更新D,D
’
,其中D更新为D
‑
{o
α
};D
’
更新为D
’
∪{o
α
};步骤2.3:从D中挑选出与D
′
最近的一个数据点对o
ζ
∈D,o
η
∈D
′
,其中然后将这两个点之间连接成边,记为edge
ζη
,并将该边添加至v中,
步骤2.4:重复2.3直到D变空为止,数据集的图构建完成G=<D
′
,v>由于步骤2.3只执行n
‑
1次,故最终v中只有...
【专利技术属性】
技术研发人员:党迎旭,王树良,李琦,杨毅辰,李明,袁汉宁,耿晶,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。