当前位置: 首页 > 专利查询>河海大学专利>正文

基于动态包围盒最大间隙切分的竞争合作聚类方法技术

技术编号:10644798 阅读:160 留言:0更新日期:2014-11-12 18:06
本发明专利技术公开了一种基于动态包围盒最大间隙切分的竞争合作聚类方法,提出了采用动态包围盒最大间隙切分的获得初始种子点的方法,即先在多维特征空间中计算数据的包围盒,并将该包围盒内的数据点向最长轴进行投影,找出相邻投影点最大间距位置对该包围盒进行一分为二,如此递归,直到将整个空间切分成足够多的子空间,最后计算出子空间的中心作为初始种子点;本发明专利技术还针对同一个聚类被碎化成多个类的现象,提出采用距离半径分析法对聚类进行合并操作,能够自适应的将碎分的各个类组建成一个完整的聚类。本发明专利技术可以避免随机化种子点造成的遗漏现象,可以避免聚类碎化现象,有利于快速的获得真实的聚类结果。

【技术实现步骤摘要】

本专利技术涉及一种基于动态包围盒最大间隙切分的竞争合作聚类方法,属于数据挖掘

技术介绍
聚类(Clustering)是将一批现实或抽象的数据对象分组成为多个类或簇的过程,是人们认识和探索事物之间内在联系的有效手段。通常采用的聚类方法有K-means、ISODATA和模糊聚类等。K-means是一种基于均方误差(MSE)最小化准则的聚类方法,但此类算法存在两个主要缺陷:1)K-means需要事先确定确切的类别数,但在实际应用中,很难确定这个参数;2)容易产生所谓的“坏单元”(dead unit)现象。如果某个初始聚类中心给得不合适,将导致没有任何输入数据归属于该初始中心,该初始中心成为一个“坏单元”。为了克服这些缺陷,研究者提出了竞争学习(Competitive Learning,CL)聚类算法,例如:频率敏感竞争学习算法(Frequency sensitive competitive algorithm,FSCL)采用减少频繁获胜种子获胜率的机制来解决坏单元问题;次胜者受罚竞争学习(Rival Penalizing Competitive Learning,RPCL)算法采用对次优种子点的排斥机制将冗余种子点推离输入样本空间,从而实现类别数目的自动确定;次胜者受罚的约束竞争学习(Rival penalized controlled competitive learning,RPCCL)是RPCL的改进,实现了反学习率的自动确定,避免RPCL对反学习率敏感的缺陷问题;基于代价函数极小化准则的距离敏感(Distance sensitive DSRPL)算法。虽然这些改进的竞争学习算法提高了一些性能,但仍然存在收敛性问题,另外由于算法中的排斥机制引起聚类中心定位偏差。竞争与合作学习的算法(Competitive and cooperative learning,CCL)则引入合作机制,避免冗余种子点被排斥出输入样本空间,同时又保证聚类中心的准确定位;同时CCL算法也避免了RPCCL聚类算法的不收敛性问题。但CCL算法仍然存在一些不可避免的问题:1)具有初始种子点敏感问题。通常的聚类算法采用随机化方法获得初始种子点,导致算法迭代次数和聚类结果的不稳定;2)无法适用于分布不平衡的异构数据,有些数据点稀少的聚类无法正确识别;3)聚类结果碎化问题。CCL算法有时会导致本来属于同一个聚类的数据被分解成为多个子类。从直观上来看,这些数据应该属于同一个类别。以上这些问题的存在,影响CCL聚类算法的使用效果和实用价值,有必要对CCL算法的这些缺陷进行改良。
技术实现思路
本专利技术的目的在于提供一种基于动态包围盒最大间隙切分的竞争合作聚类方法,对原始CCL聚类算法进行有针对性的改进,更加快速的获得真实的聚类结果。为达到上述目的,本专利技术采用的技术方案如下:基于动态包围盒最大间隙切分的竞争合作聚类方法,包括以下步骤:1)设定初始聚类类别数K;2)对N个输入数据进行分析,采用动态包围盒最大间隙切分算法初始化K个种子点,具体步骤如下:2-1)将输入数据作为多维空间的点,计算能包含所有输入数据的最小外包矩形;2-2)比较最小外包矩形各个维度上的长度,选择长度最大对应的维度为切分轴;2-3)将所有输入数据点投影到该切分轴,,然后将投影点按照由小到大的顺序进行排列;2-4)计算前后两个相邻投影点之间的距离,选择距离最大的两个相邻投影点作为切分位置,将输入数据沿着该切分轴分成两个子集;2-5)选择所有子集中包围盒体积最大的那个子集再次执行步骤2-1)—2-4),对该子集进行一分为二;2-6)重复步骤2-5),直到获得K个子集为止;2-7)计算所获得的K个子集的几何中心,作为初始种子点;3)令每个初始种子点的获胜次数nk=1,k=0,...,K;4)对于当前输入数据xi,计算指标函数I(j|xi):其中,cp表示第p个种子点,rp表示第p个种子点的相对获胜率,rp=np/Σj=1Knj]]>np为第p个种子点的获胜次数,找出满足指标函数I(j|xi)=1的种子点,记为获胜种子点cw;5)查找以获胜种子点cw为中心,以||cw-xi||为半径的圆内的所有种子点,形成合作群体;6)对合作群体内的所有种子点按如下公式进行更新:cunew=cuold+η(xi-cuold)]]>其中,表示更新前的种子点,表示更新后的种子点,η为学习率参数;7)按下式更新获胜种子点cw的获胜次数,nwnew=nwold+1]]>其中,为更新前获胜种子点cw的获胜次数,为更新后获胜种子点cw的获胜次数;8)重复步骤4)—步骤7),直到种子点不再变化;9)剔除重复种子点;10)进行聚类合并操作,形成最终聚类结果:假设完成迭代和重复种子点删除之后,最终得到M个种子点,称为聚类中心,记为dm,m=1…M,M≤K,然后将每个输入数据标记为所属的聚类中心,聚类合并的具体操作如下:10-1)根据输入数据所属的聚类中心的标记信息Lab(xi),计算每个聚类中心所能覆盖的半径Rm,m=1…M;10-2)取出两个聚类中心dq和dt,q∈[1,M],t∈[1,M],且满足q<t,计算它们之间的欧式距离Dqt,若满足下列条件:Dqt≤Rq或者Dqt≤Rt则将输入数据中标记信息Lab(xi)为t的输入数据都重新标记为q,即将t类合并到q类;10-3)对所有的两个聚类中心进行所述步骤10-2)的操作,直到没有可合并的聚类为止;10-4)重新计算经合并后的各个类的聚类中心,获得最终H个(H≤M)聚类中心。前述的步骤1)中所述初始聚类类别数K远大于实际类别数K*。前述的步骤6)中学习率参数η的取值为0.001。前述的步骤9)中剔除重复种子点是指将收敛到相同的位置的多个种子点进行删除,只保留其中的一个。前述的步骤10)中,将每个输入数据标记为所属的聚类中心是指对所有的输入数据xi,计算它与哪个聚类中心最近,假设xi与第s个聚类中心最近,则将xi的标记Lab(xi)置为s,表示该输入数据属于第s个聚类中心:Lab(xi)=s。前述的步骤10-1)中,半径Rm的计算方法为:求出第m个聚类中心与属于该聚类中心的所有输入数据间的距离值,取其中的最大值作为半径Rm。本专利技术的优点在于:本专利技术采用动态包围盒最大间隙切分方法能够根据输入数据本身的分布规律自动选择获得初始种子点,加快聚类速度,提高了算法的稳本文档来自技高网
...
基于动态包围盒最大间隙切分的竞争合作聚类方法

【技术保护点】
基于动态包围盒最大间隙切分的竞争合作聚类方法,其特征在于,包括以下步骤:1)设定初始聚类类别数K;2)对N个输入数据进行分析,采用动态包围盒最大间隙切分算法初始化K个种子点,具体步骤如下:2‑1)将输入数据作为多维空间的点,计算能包含所有输入数据的最小外包矩形;2‑2)比较最小外包矩形各个维度上的长度,选择长度最大对应的维度为切分轴;2‑3)将所有输入数据点投影到该切分轴,,然后将投影点按照由小到大的顺序进行排列;2‑4)计算前后两个相邻投影点之间的距离,选择距离最大的两个相邻投影点作为切分位置,将输入数据沿着该切分轴分成两个子集;2‑5)选择所有子集中包围盒体积最大的那个子集再次执行步骤2‑1)—2‑4),对该子集进行一分为二;2‑6)重复步骤2‑5),直到获得K个子集为止;2‑7)计算所获得的K个子集的几何中心,作为初始种子点;3)令每个初始种子点的获胜次数nk=1,k=0,...,K;4)对于当前输入数据xi,计算指标函数I(j|xi):其中,cp表示第p个种子点,rp表示第p个种子点的相对获胜率,rp=np/Σj=1Knj]]>np为第p个种子点的获胜次数,找出满足指标函数I(j|xi)=1的种子点,记为获胜种子点cw;5)查找以获胜种子点cw为中心,以||cw‑xi||为半径的圆内的所有种子点,形成合作群体;6)对合作群体内的所有种子点按如下公式进行更新:cunew=cuold+η(xi-cuold)]]>其中,表示更新前的种子点,表示更新后的种子点,η为学习率参数;7)按下式更新获胜种子点cw的获胜次数,nwnew=nwold+1]]>其中,为更新前获胜种子点cw的获胜次数,为更新后获胜种子点cw的获胜次数;8)重复步骤4)—步骤7),直到种子点不再变化;9)剔除重复种子点;10)进行聚类合并操作,形成最终聚类结果:假设完成迭代和重复种子点删除之后,最终得到M个种子点,称为聚类中心,记为dm,m=1…M,M≤K,然后将每个输入数据标记为所属的聚类中心,聚类合并的具体操作如下:10‑1)根据输入数据所属的聚类中心的标记信息Lab(xi),计算每个聚类中心所能覆盖的半径Rm,m=1…M;10‑2)取出两个聚类中心dq和dt,q∈[1,M],t∈[1,M],且满足q<t,计算它们之间的欧式距离Dqt,若满足下列条件:Dqt≤Rq或者Dqt≤Rt则将输入数据中标记信息Lab(xi)为t的输入数据都重新标记为q,即将t类合并到q类;10‑3)对所有的两个聚类中心进行所述步骤10‑2)的操作,直到没有可合并的聚类为止;10‑4)重新计算经合并后的各个类的聚类中心,获得最终H个(H≤M)聚类中心。...

【技术特征摘要】
1.基于动态包围盒最大间隙切分的竞争合作聚类方法,其特征在于,包括以下步骤:
1)设定初始聚类类别数K;
2)对N个输入数据进行分析,采用动态包围盒最大间隙切分算法初始化K个种子点,
具体步骤如下:
2-1)将输入数据作为多维空间的点,计算能包含所有输入数据的最小外包矩形;
2-2)比较最小外包矩形各个维度上的长度,选择长度最大对应的维度为切分轴;
2-3)将所有输入数据点投影到该切分轴,,然后将投影点按照由小到大的顺序进行
排列;
2-4)计算前后两个相邻投影点之间的距离,选择距离最大的两个相邻投影点作为切
分位置,将输入数据沿着该切分轴分成两个子集;
2-5)选择所有子集中包围盒体积最大的那个子集再次执行步骤2-1)—2-4),对该
子集进行一分为二;
2-6)重复步骤2-5),直到获得K个子集为止;
2-7)计算所获得的K个子集的几何中心,作为初始种子点;
3)令每个初始种子点的获胜次数nk=1,k=0,...,K;
4)对于当前输入数据xi,计算指标函数I(j|xi):
其中,cp表示第p个种子点,rp表示第p个种子点的相对获胜率,
rp=np/Σj=1Knj]]>np为第p个种子点的获胜次数,
找出满足指标函数I(j|xi)=1的种子点,记为获胜种子点cw;
5)查找以获胜种子点cw为中心,以||cw-xi||为半径的圆内的所有种子点,形成合作
群体;
6)对合作群体内的所有种子点按如下公式进行更新:
cunew=cuold+η(xi-cuold)]]>其中,表示更新前的种子点,表示更新后的种子点,η为学习率参数;
7)按下式更新获胜种子点cw的获胜次数,
nwnew=nwold+1]]>其中,为更新前获胜种子点cw的获胜次数,为更新后获胜种子点cw的获胜次
数;
8)重复步骤4)—步骤7),直到种子点不再变化;
9)剔除重复种子点;
10)进行聚类合并操作,形成最终聚类结果:
假设完成迭代和重复种子...

【专利技术属性】
技术研发人员:陈仁喜周绍光
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1