基于动态包围盒最大间隙切分的竞争合作聚类方法技术

技术编号：10644798 阅读：160 留言：0更新日期：2014-11-12 18:06

本发明专利技术公开了一种基于动态包围盒最大间隙切分的竞争合作聚类方法，提出了采用动态包围盒最大间隙切分的获得初始种子点的方法，即先在多维特征空间中计算数据的包围盒，并将该包围盒内的数据点向最长轴进行投影，找出相邻投影点最大间距位置对该包围盒进行一分为二，如此递归，直到将整个空间切分成足够多的子空间，最后计算出子空间的中心作为初始种子点；本发明专利技术还针对同一个聚类被碎化成多个类的现象，提出采用距离半径分析法对聚类进行合并操作，能够自适应的将碎分的各个类组建成一个完整的聚类。本发明专利技术可以避免随机化种子点造成的遗漏现象，可以避免聚类碎化现象，有利于快速的获得真实的聚类结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于动态包围盒最大间隙切分的竞争合作聚类方法，属于数据挖掘

技术介绍
聚类(Clustering)是将一批现实或抽象的数据对象分组成为多个类或簇的过程,是人们认识和探索事物之间内在联系的有效手段。通常采用的聚类方法有K-means、ISODATA和模糊聚类等。K-means是一种基于均方误差(MSE)最小化准则的聚类方法，但此类算法存在两个主要缺陷：1)K-means需要事先确定确切的类别数，但在实际应用中，很难确定这个参数；2)容易产生所谓的“坏单元”(dead unit)现象。如果某个初始聚类中心给得不合适，将导致没有任何输入数据归属于该初始中心，该初始中心成为一个“坏单元”。为了克服这些缺陷，研究者提出了竞争学习(Competitive Learning,CL)聚类算法,例如:频率敏感竞争学习算法(Frequency sensitive competitive algorithm,FSCL)采用减少频繁获胜种子获胜率的机制来解决坏单元问题；次胜者受罚竞争学习(Rival Penalizing Competitive Learning,RPCL)算法采用对次优种子点的排斥机制将冗余种子点推离输入样本空间，从而实现类别数目的自动确定；次胜者受罚的约束竞争学习(Rival penalized controlled competitive learning,RPCCL)是RPCL的改进，实现了反学习率的自动确定...
基于动态包围盒最大间隙切分的竞争合作聚类方法

【技术保护点】
基于动态包围盒最大间隙切分的竞争合作聚类方法，其特征在于，包括以下步骤：1)设定初始聚类类别数K；2)对N个输入数据进行分析，采用动态包围盒最大间隙切分算法初始化K个种子点，具体步骤如下：2‑1)将输入数据作为多维空间的点，计算能包含所有输入数据的最小外包矩形；2‑2)比较最小外包矩形各个维度上的长度，选择长度最大对应的维度为切分轴；2‑3)将所有输入数据点投影到该切分轴，，然后将投影点按照由小到大的顺序进行排列；2‑4)计算前后两个相邻投影点之间的距离，选择距离最大的两个相邻投影点作为切分位置，将输入数据沿着该切分轴分成两个子集；2‑5)选择所有子集中包围盒体积最大的那个子集再次执行步骤2‑1)—2‑4)，对该子集进行一分为二；2‑6)重复步骤2‑5)，直到获得K个子集为止；2‑7)计算所获得的K个子集的几何中心，作为初始种子点；3)令每个初始种子点的获胜次数nk＝1,k＝0,...,K；4)对于当前输入数据xi,计算指标函数I(j|xi)：其中，cp表示第p个种子点，rp表示第p个种子点的相对获胜率，rp=np/Σj=1Knj]]>np为第p个种子点的获胜次数，找出满足...

【技术特征摘要】
1.基于动态包围盒最大间隙切分的竞争合作聚类方法，其特征在于，包括以下步骤：
1)设定初始聚类类别数K；
2)对N个输入数据进行分析，采用动态包围盒最大间隙切分算法初始化K个种子点，
具体步骤如下：
2-1)将输入数据作为多维空间的点，计算能包含所有输入数据的最小外包矩形；
2-2)比较最小外包矩形各个维度上的长度，选择长度最大对应的维度为切分轴；
2-3)将所有输入数据点投影到该切分轴，，然后将投影点按照由小到大的顺序进行
排列；
2-4)计算前后两个相邻投影点之间的距离，选择距离最大的两个相邻投影点作为切
分位置，将输入数据沿着该切分轴分成两个子集；
2-5)选择所有子集中包围盒体积最大的那个子集再次执行步骤2-1)—2-4)，对该
子集进行一分为二；
2-6)重复步骤2-5)，直到获得K个子集为止；
2-7)计算所获得的K个子集的几何中心，作为初始种子点；
3)令每个初始种子点的获胜次数nk＝1,k＝0,...,K；
4)对于当前输入数据xi,计算指标函数I(j|xi)：
其中，cp表示第p个种子点，rp表示第p个种子点的相对获胜率，
rp=np/Σj=1Knj]]>np为第p个种子点的获胜次数，
找出满足指标函数I(j|xi)＝1的种子点，记为获胜种子点cw；
5)查找以获胜种子点cw为中心，以||cw-xi||为半径的圆内的所有种子点，形成合作
群体；
6)对合作群体内的所有种子点按如下公式进行更新：
cunew=cuold+η(xi-cuold)]]>其中,表示更新前的种子点，表示更新后的种子点，η为学习率参数；
7)按下式更新获胜种子点cw的获胜次数，
nwnew=nwold+1]]>其中，为更新前获胜种子点cw的获胜次数，为更新后获胜种子点cw的获胜次
数；
8)重复步骤4)—步骤7)，直到种子点不再变化；
9)剔除重复种子点；
10)进行聚类合并操作，形成最终聚类结果：
假设完成迭代和重复种子...

【专利技术属性】
技术研发人员：陈仁喜，周绍光，
申请(专利权)人：河海大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人