信息粒导向压缩快速聚类算法制造技术

技术编号:19122693 阅读:29 留言:0更新日期:2018-10-10 05:30
本发明专利技术公开了一种信息粒导向压缩快速聚类算法,首先对信息粒数据进行标准化变换,将变换后的信息粒进行导向压缩变换,然后对导向矢量进行快速聚类;本发明专利技术通过对信息粒数据进行导向压缩处理,构造信息粒导向矢量,对信息粒导向矢量进行聚类,可以使高维数据降维,从而降低算法聚类复杂度,同时提升聚类效果;更适合实际应用。

【技术实现步骤摘要】
信息粒导向压缩快速聚类算法
本专利技术属于大数据技术研究领域,具体涉及一种有效的导向压缩快速聚类算法,以提高聚类性能。
技术介绍
在大数据时代,如何充分挖掘出蕴藏于数据资源中的价值正在成为各国IT业界、学术界和政府共同关注的焦点。数据挖掘中应用最为广泛的经典聚类算法之一的kmeans算法一直以来倍受学者们的青睐,针对kmeans算法自身的缺陷,如受迭代次数影响、受初始化中心的影响,当处理实际应用领域的复杂高维数据时,将会出现运算量大、收敛速度慢的缺陷。
技术实现思路
针对上述现有技术存在的不足,本专利技术的目的在于提供一种信息粒导向变相动态快速聚类算法,能更快聚类,聚类效果好,解决现有的聚类算法不易于收敛、运算量大的缺陷。为解决上述技术问题,本专利技术采用了以下技术方案:信息粒导向压缩快速聚类算法,包括以下步骤:步骤一:对信息粒数据D作平移标准差变换,得到信息粒数据D为:变换之后的信息粒数据为:其中,xnm表示第n个数据的第m个属性,xn′m表示经平移标准差变换后的第n个数据的第m个属性,N表示信息粒数据的个数,每个数据有M个属性;步骤二:对信息粒数据进行导向压缩变换;步骤2.1:信息粒数据的导向矢量Ξ为:其中,Λ为信息粒的导向压缩变换矢量,Λ=[cosθ1cosθ2…cosθm…cosθM]T,且满足θm表示波长为λ的平行波辐射在信息粒上时该平行波束与M维空间标准正交坐标轴的正向夹角,m=1,2,...,M;步骤2.2:对导向矢量Ξ的元素按从小至大的顺序进行排列,得到排序后的导向矢量Ξ′,Ξ′=[μ1μ2…μn…μN];其中,μn表示导向矢量Ξ的元素按从小至大排列后的元素。步骤三:对排序后的导向矢量Ξ′进行聚类;步骤3.1:选取排序后的导向矢量Ξ′中的K个元素作初始化聚类中心cj,j∈{1,2,...,K},K=1,2,...,N;步骤3.2:将排序后的导向矢量Ξ′中其余元素分别分配给距离最近的聚类中心,使目标函数J的值最小,其中,聚类完成后,得到K类数据;步骤3.3:分别计算K类数据的均值,将获得的均值作为下一循环中新的K个聚类中心;步骤3.4:重复3.2至3.3,直至满足预先设置的迭代次数或者聚类中心不再发生变化。本专利技术的有益效果:本专利技术通过对信息粒数据进行导向压缩处理,构造信息粒导向矢量,对信息粒导向矢量进行聚类,可以使高维数据降维,从而降低算法聚类复杂度,同时提升聚类效果;更适合实际应用。附图说明图1是本专利技术的算法的轮廓系数图。图2是Kmeans算法的轮廓系数图。图3是本专利技术的算法和Kmeans算法的程序耗时对比图。以下结合附图与具体实施方式对本专利技术进一步解释说明。具体实施方式本专利技术的信息粒导向压缩快速聚类算法,包括以下步骤:步骤一:为了使有不同量纲的量也能进行比较,对信息粒数据D作平移标准差变换,得到消除了量纲的影响;其信息粒数据D为:其中,xnm表示第n个数据的第m个属性,N表示信息粒数据的个数,每个数据有M个属性;变换后的信息粒数据为:其中,x′nm表示经平移标准差变换后的第n个数据的第m个属性;步骤二:对信息粒数据进行导向压缩变换;步骤2.1:将变换后的每一个数据x′nm看作是M维空间的一个粒子,假设一束波长为λ的平行波辐射在这些粒子上,设该波束与M维空间标准正交坐标轴的正向夹角矢量Φ为:Φ=[θ1θ2…θm…θM]1×M;定义Λ=[cosθ1cosθ2…cosθm…cosθM]T称Λ为这些粒子的导向压缩变换矢量,且满足以坐标原点为基点,该波束在各个粒子相对基点形成的波程差矢量为在此,称Ξ为信息粒矩阵D的导向矢量,很显然,Ξ为N×1的矢量;步骤2.2:对导向矢量Ξ的元素按从小至大的顺序进行排列,得到排序后的导向矢量Ξ′,Ξ′=sort(Ξ);Ξ′=[μ1μ2…μn…μN],其中,μn表示导向矢量Ξ的元素按从小至大排列后的元素。步骤三:对排序后的导向矢量Ξ′进行快速聚类;步骤3.1:选取排序后的导向矢量Ξ′中的K个元素作初始化聚类中心cj,j∈{1,2,...,K},K=1,2,...,N;步骤3.2:将排序后的导向矢量Ξ′中其余元素分别分配给距离最近的聚类中心,使目标函数J的值最小,其中,聚类完成后,得到K类数据;步骤3.3:分别计算K类数据的均值,将获得的均值作为下一循环中新的K个聚类中心;步骤3.4:重复3.2至3.3,直至满足预先设置的迭代次数或者聚类中心不再发生变化。聚类作为一种无监督的学习方法,其聚类结果的优劣通常由聚类有效性评价指标进行度量理想的聚类效果应该是具有最小的类内距离和最大的类间距离。个体轮廓系数结合了类内距离和类间距离,用以评价某单个样本被聚到某个类的合理性,其取值介于-1和1之间,若取值接近于1,则表示该样本的类内平均距离远小于最小的类间平均距离,说明对该样本的聚类达到最优效果。以下给出本专利技术的具体实施例,需要说明的是本专利技术并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本专利技术的保护范围。实施例1本实施例对N=1000,M=3的信息粒数据D进行聚类,聚类数K=3,最大迭代次数均取50,信息粒导向压缩变换矢量Λ=[0.35360.3]T。本专利技术算法与Kmeans算法对比,实验结果如图1至图2所示。从图1和图2两种算法的轮廓系数对比图可以看出,在相同实验条件下,本专利技术的轮廓系数取值更接近1,因此,本专利技术算法的聚类效果相对更优,聚类更合理。实施例2本实施例对N=3000-9000,M=3的信息粒数据D进行聚类,聚类数K=2,最大迭代次数均取200-800,信息粒导向压缩变换矢量Λ=[0.35360.35360.8660]T,1000次实验。本专利技术算法与Kmeans算法对比,实验结果如图3所示。由图3很容易看出两种算法随着数据量和迭代次数的增加,程序耗时呈现递增趋势,在相同的实验条件下本专利技术算法运行时间相对较小。本文档来自技高网...
信息粒导向压缩快速聚类算法

【技术保护点】
1.信息粒导向压缩快速聚类算法,其特征在于:包括以下步骤:步骤一:对信息粒数据D作平移标准差变换,得到

【技术特征摘要】
1.信息粒导向压缩快速聚类算法,其特征在于:包括以下步骤:步骤一:对信息粒数据D作平移标准差变换,得到信息粒数据D为:变换之后的信息粒数据为:其中,xnm表示第n个数据的第m个属性,x′nm表示经平移标准差变换后的第n个数据的第m个属性,N表示信息粒数据的个数,每个数据有M个属性;步骤二:对信息粒数据进行导向压缩变换;步骤2.1:信息粒数据的导向矢量Ξ为:其中,Λ为信息粒的导向压缩变换矢量,Λ=[cosθ1cosθ2…cosθm…cosθM]T,且满足θm表示波长为λ的平行波辐射在信息粒上时该平行波束与M维空间标准正交坐标轴的正向夹角,m=1,2,...,M;步骤2.2:对导向矢量Ξ的元...

【专利技术属性】
技术研发人员:徐楷杰李志武聂卫科尹雨山朱修彬
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1