数据聚类方法、装置以及目标分群方法制造方法及图纸

技术编号：34455827 阅读：39 留言：0更新日期：2022-08-06 17:01

本发明专利技术公开了数据聚类方法、装置以及目标分群方法，目的是提升数据的聚类效果，提高聚类结果的精度，进一步可以实现对战场目标的精确分群。该方案具体为：识别数据集中的骨干数据；骨干数据是指保留原数据集中数据结构的样本集合。依据骨干数据，构建骨干节点的拓扑图，通过剪切边将拓扑图划分为多个联通子图，每个联通子图即是识别出的一个簇，则全部n个骨干节点被n

全部详细技术资料下载

【技术实现步骤摘要】
数据聚类方法、装置以及目标分群方法

[0001]本专利技术涉及大数据分析领域，涉及寻找和处理数据集的骨干节点并完成分配，适用于各种类型的数据集的聚类过程，特别是数据聚类识别以及目标分群方法。

技术介绍

[0002]在聚类的领域内，K
‑
means是一种非常经典和经常被使用的聚类方法。K
‑
means算法具有计算复杂度极低、聚类中心的数量少、计算出的聚类中心的局部代表性强以及整体影响小(聚类中心通常仅由邻近的点影响，全局对聚类中心的影响不大)等特点，因此虽然其聚类效果并不出色且对k值十分敏感，但它十分实用于识别骨干数据。
[0003]使用K
‑
means算法找到的骨干数据集合并不唯一，且可多可少。因此，K
‑
means结果对参数k的敏感性不再是致命的缺点，不同的k值只会影响骨干节点的数量。

技术实现思路

[0004]有鉴于此，本专利技术提供了数据聚类方法、装置以及目标分群方法，目的是提升数据的聚类效果，提高聚类结果的精度，进一步可以实现对目标的精确分群。
[0005]为达到上述目的，本专利技术提供的数据聚类方法，包括如下步骤：
[0006]步骤1：输入数据集，识别数据集中的骨干数据；骨干数据是指保留原数据集中数据结构的样本集合，骨干数据具备如下三个属性：数据量小于原数据集，与元数据集具有相同的数据结构以及骨干节点组合不唯一。
[0007]步骤2：依据骨干数据，构建骨干节点的拓扑图，通过剪切边将拓扑图划...

【技术保护点】

【技术特征摘要】
1.数据聚类方法，其特征在于，包括如下步骤：步骤1：输入数据集，识别数据集中的骨干数据；所述骨干数据是指保留原数据集中数据结构的样本集合，骨干数据具备如下三个属性：数据量小于原数据集，与元数据集具有相同的数据结构以及骨干节点组合不唯一；步骤2：依据骨干数据，构建骨干节点的拓扑图，通过剪切边将所述拓扑图划分为多个联通子图，每个联通子图即是识别出的一个簇，则全部n个骨干节点被n
‑
1条边连接成一个全联通图；步骤3：将簇内数据点间的边称为簇内边，将簇间连接的边称为簇间边，簇间边的权重远小于簇内边的权重，将权重最小的k
‑
1条边剪切掉，得到k个联通子图；骨干节点集合被划分为k个簇；数据集中所剩余的数据点分配到所对应骨干节点的簇中，由此获得聚类结果。2.如权利要求1所述的数据聚类方法，其特征在于，所述识别数据集中的骨干数据时，使用k
‑
means算法，所述K
‑
means算法只有一个输入参数k，即为所要识别的簇的数量。3.如权利要求2所述的数据聚类方法，其特征在于，所述步骤1中，识别数据集中的骨干数据，具体包括如下步骤：步骤1.1：从数据集中随机选取k个数据点，作为初始聚类中心；步骤1.2：遍历数据集中的其余数据点，寻找每个点的最近的聚类中心，并将该点分配到其最近的聚类中心所代表的簇中；步骤1.3：计算每个簇内数据点的中心点，将中心点更新为该簇的新聚类中心；步骤1.4：重复执行步骤1.1～步骤1.3，直到聚类中心不再改变为止；步骤1.5：对步骤1.4得到的聚类中心进行修正，修正后的聚类中心不再是簇中数据点的中点，而是密度中心，即密度极值，修正后的聚类中心即为数据集的骨干数据。4.如权利要求1、2或3任一所述的数据聚类方法，其特征在于，所述构建骨干节点的拓扑图具体为：构建最优拓扑图的过程即是求解如下目标最优化解的过程：S.t.|v|＝n
‑
1，即n个数据点间至少需要n
‑
1条边才能保证所有数据点联通性；其中|v|表示边的数量；n表示骨干节点的数量；v
i
为边，w(v
i
)为边v
i
的权重。5.如权利要求4所述的数据聚类方法，其特征在于，所述构建最优拓扑图的过程即是求解如下目标最优化解的过程：具体采用BPC算法进行求解，具体包括如下步骤：步骤2.1：设定三个中间变量D，D
’
和v，初始状态下，均设定为空集；步骤2.2：从D中随机选取一数据点o
α
，更新D,D
’
，其中D更新为D
‑
{o
α
}；D
’
更新为D
’
∪{o
α
}；步骤2.3：从D中挑选出与D
′
最近的一个数据点对o
ζ
∈D，o
η
∈D
′
，其中然后将这两个点之间连接成边，记为edge
ζη
，并将该边添加至v中，
步骤2.4：重复2.3直到D变空为止，数据集的图构建完成G＝<D
′
，v>由于步骤2.3只执行n
‑
1次，故最终v中只有...

【专利技术属性】
技术研发人员：党迎旭，王树良，李琦，杨毅辰，李明，袁汉宁，耿晶，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人