数据聚类方法、装置以及目标分群方法制造方法及图纸

技术编号:34455827 阅读:39 留言:0更新日期:2022-08-06 17:01
本发明专利技术公开了数据聚类方法、装置以及目标分群方法,目的是提升数据的聚类效果,提高聚类结果的精度,进一步可以实现对战场目标的精确分群。该方案具体为:识别数据集中的骨干数据;骨干数据是指保留原数据集中数据结构的样本集合。依据骨干数据,构建骨干节点的拓扑图,通过剪切边将拓扑图划分为多个联通子图,每个联通子图即是识别出的一个簇,则全部n个骨干节点被n

【技术实现步骤摘要】
数据聚类方法、装置以及目标分群方法


[0001]本专利技术涉及大数据分析领域,涉及寻找和处理数据集的骨干节点并完成分配,适用于各种类型的数据集的聚类过程,特别是数据聚类识别以及目标分群方法。

技术介绍

[0002]在聚类的领域内,K

means是一种非常经典和经常被使用的聚类方法。K

means算法具有计算复杂度极低、聚类中心的数量少、计算出的聚类中心的局部代表性强以及整体影响小(聚类中心通常仅由邻近的点影响,全局对聚类中心的影响不大)等特点,因此虽然其聚类效果并不出色且对k值十分敏感,但它十分实用于识别骨干数据。
[0003]使用K

means算法找到的骨干数据集合并不唯一,且可多可少。因此,K

means结果对参数k的敏感性不再是致命的缺点,不同的k值只会影响骨干节点的数量。

技术实现思路

[0004]有鉴于此,本专利技术提供了数据聚类方法、装置以及目标分群方法,目的是提升数据的聚类效果,提高聚类结果的精度,进一步可以实现对目标的精确分群。
[0005]为达到上述目的,本专利技术提供的数据聚类方法,包括如下步骤:
[0006]步骤1:输入数据集,识别数据集中的骨干数据;骨干数据是指保留原数据集中数据结构的样本集合,骨干数据具备如下三个属性:数据量小于原数据集,与元数据集具有相同的数据结构以及骨干节点组合不唯一。
[0007]步骤2:依据骨干数据,构建骨干节点的拓扑图,通过剪切边将拓扑图划分为多个联通子图,每个联通子图即是识别出的一个簇,则全部n个骨干节点被n

1条边连接成一个全联通图。
[0008]步骤3:将簇内数据点间的边称为簇内边,将簇间连接的边称为簇间边,簇间边的权重远小于簇内边的权重,将权重最小的k

1条边剪切掉,得到k个联通子图;骨干节点集合被划分为k个簇;数据集中所剩余的数据点分配到所对应骨干节点的簇中,由此获得聚类结果。
[0009]进一步地,识别数据集中的骨干数据时,使用k

means算法,K

means算法只有一个输入参数k,即为所要识别的簇的数量。
[0010]进一步地,步骤1中,识别数据集中的骨干数据,具体包括如下步骤:
[0011]步骤1.1:从数据集中随机选取k个数据点,作为初始聚类中心。
[0012]步骤1.2:遍历数据集中的其余数据点,寻找每个点的最近的聚类中心,并将该点分配到其最近的聚类中心所代表的簇中。
[0013]步骤1.3:计算每个簇内数据点的中心点,将中心点更新为该簇的新聚类中心。
[0014]步骤1.4:重复执行步骤1.1~步骤1.3,直到聚类中心不再改变为止。
[0015]步骤1.5:对步骤1.4得到的聚类中心进行修正,修正后的聚类中心不再是簇中数据点的中点,而是密度中心,即密度极值,修正后的聚类中心即为数据集的骨干数据。
[0016]进一步地,构建骨干节点的拓扑图具体为:
[0017]构建最优拓扑图的过程即是求解如下目标最优化解的过程:
[0018][0019]S.t.|v|=n

1,即n个数据点间至少需要n

1条边才能保证所有数据点联通性;其中|v|表示边的数量;n表示骨干节点的数量;v
i
为边,w(v
i
)为边v
i
的权重。
[0020]进一步地,构建最优拓扑图的过程即是求解如下目标最优化解的过程:
[0021][0022]具体采用BPC算法进行求解,具体包括如下步骤:
[0023]步骤2.1:设定三个中间变量D,D

和v,初始状态下,均设定为空集;
[0024]步骤2.2:从D中随机选取一数据点o
α
,更新D,D

,其中D更新为D

{o
α
};D

更新为D

U{o
α
};
[0025]步骤2.3:从D中挑选出与D

最近的一个数据点对o
ζ
∈D,o
η
∈D

,其中
[0026][0027]然后将这两个点之间连接成边,记为edge
ζη
,并将该边添加至v中,
[0028]步骤2.4:重复2.3直到D变空为止,数据集的图构建完成G=<D

,v>
[0029]由于步骤2.3只执行n

1次,故最终v中只有n

1个边。
[0030]本专利技术另外一个实施例还提供了数据聚类装置,包括数据集识别模块、拓扑图构建模块以及聚类模块。
[0031]数据集识别模块,用于获取数据集,识别数据集中的骨干数据;骨干数据实质保留原数据集中数据结构的样本集合,骨干数据具备如下三个属性:数据量小于原数据集,与元数据集具有相同的数据结构以及骨干节点组合不唯一。
[0032]拓扑图构建模块,用于依据骨干数据,构建骨干节点的拓扑图,通过剪切边将拓扑图划分为多个联通子图,每个联通子图即是识别出的一个簇,则全部n个骨干节点被n

1条边连接成一个全联通图。
[0033]聚类模块,用于将簇内数据点间的边称为簇内边,将簇间连接的边称为簇间边,簇间边的权重远小于簇内边的权重,将权重最小的k

1条边剪切掉,得到k个联通子图;骨干节点集合被划分为k个簇;数据集中所剩余的数据点分配到所对应骨干节点的簇中,由此获得聚类结果。
[0034]进一步地,数据集识别模块,采用如下方式识别数据集中的骨干数据:
[0035]首先从数据集中随机选取k个数据点,作为初始聚类中心;然后遍历数据集中的其余数据点,寻找每个点的最近的聚类中心,并将该点分配到其最近的聚类中心所代表的簇中;计算每个簇内数据点的中心点,将中心点更新为该簇的新聚类中心;重复执行上述步骤,直到聚类中心不再改变为止;对聚类中心进行修正,修正后的聚类中心不再是簇中数据点的中点,而是密度中心,即密度极值,修正后的聚类中心即为数据集的骨干数据。
[0036]进一步地,构建骨干节点的拓扑图具体为:
[0037]构建最优拓扑图的过程即是求解如下目标最优化解的过程:
[0038][0039]S.t.|v|=n

1,即n个数据点间至少需要n

1条边才能保证所有数据点联通性;其中|v|表示边的数量;n表示骨干节点的数量;v
i
为边,w(v
i
)为边v
i
的权重。
[0040]构建最优拓扑图的过程即是求解如下目标最优化解的过程:
[0041]具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.数据聚类方法,其特征在于,包括如下步骤:步骤1:输入数据集,识别数据集中的骨干数据;所述骨干数据是指保留原数据集中数据结构的样本集合,骨干数据具备如下三个属性:数据量小于原数据集,与元数据集具有相同的数据结构以及骨干节点组合不唯一;步骤2:依据骨干数据,构建骨干节点的拓扑图,通过剪切边将所述拓扑图划分为多个联通子图,每个联通子图即是识别出的一个簇,则全部n个骨干节点被n

1条边连接成一个全联通图;步骤3:将簇内数据点间的边称为簇内边,将簇间连接的边称为簇间边,簇间边的权重远小于簇内边的权重,将权重最小的k

1条边剪切掉,得到k个联通子图;骨干节点集合被划分为k个簇;数据集中所剩余的数据点分配到所对应骨干节点的簇中,由此获得聚类结果。2.如权利要求1所述的数据聚类方法,其特征在于,所述识别数据集中的骨干数据时,使用k

means算法,所述K

means算法只有一个输入参数k,即为所要识别的簇的数量。3.如权利要求2所述的数据聚类方法,其特征在于,所述步骤1中,识别数据集中的骨干数据,具体包括如下步骤:步骤1.1:从数据集中随机选取k个数据点,作为初始聚类中心;步骤1.2:遍历数据集中的其余数据点,寻找每个点的最近的聚类中心,并将该点分配到其最近的聚类中心所代表的簇中;步骤1.3:计算每个簇内数据点的中心点,将中心点更新为该簇的新聚类中心;步骤1.4:重复执行步骤1.1~步骤1.3,直到聚类中心不再改变为止;步骤1.5:对步骤1.4得到的聚类中心进行修正,修正后的聚类中心不再是簇中数据点的中点,而是密度中心,即密度极值,修正后的聚类中心即为数据集的骨干数据。4.如权利要求1、2或3任一所述的数据聚类方法,其特征在于,所述构建骨干节点的拓扑图具体为:构建最优拓扑图的过程即是求解如下目标最优化解的过程:S.t.|v|=n

1,即n个数据点间至少需要n

1条边才能保证所有数据点联通性;其中|v|表示边的数量;n表示骨干节点的数量;v
i
为边,w(v
i
)为边v
i
的权重。5.如权利要求4所述的数据聚类方法,其特征在于,所述构建最优拓扑图的过程即是求解如下目标最优化解的过程:具体采用BPC算法进行求解,具体包括如下步骤:步骤2.1:设定三个中间变量D,D

和v,初始状态下,均设定为空集;步骤2.2:从D中随机选取一数据点o
α
,更新D,D

,其中D更新为D

{o
α
};D

更新为D

∪{o
α
};步骤2.3:从D中挑选出与D

最近的一个数据点对o
ζ
∈D,o
η
∈D

,其中然后将这两个点之间连接成边,记为edge
ζη
,并将该边添加至v中,
步骤2.4:重复2.3直到D变空为止,数据集的图构建完成G=<D

,v>由于步骤2.3只执行n

1次,故最终v中只有...

【专利技术属性】
技术研发人员:党迎旭王树良李琦杨毅辰李明袁汉宁耿晶
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1