【技术实现步骤摘要】
一种数据聚类的方法及装置
本专利技术属于计算机
,尤其涉及一种数据聚类的方法及装置。
技术介绍
随着计算机与信息技术的密切结合,海量的数据在互联网上快速的产生和传播,金融、电信等多个行业需要从海量的数据中获取具有潜在意义的信息,才能在瞬息万变中把握住经济命脉的先机,在科技的发展下,需要处理和分类的信息量与日俱增,信息获取的速度越来越快,信息的种类也越来越复杂,如何对这些种类繁多、对象不明确、不完全的大量信息进行有效地分类,并从中挖掘出我们需要的、有用的信息,是当今业界重要的研究课题。目前,可通过聚类算法实现这个课题,常用的K-均值聚类算法具有快速的收敛性、良好的伸缩性等优点,在聚类过程中通常能聚类出一较好的结果,然而该算法的聚类效果比较依赖聚类中心的初始值,同时在聚类时易陷入局部解、易受到“噪音”干扰,导致从海量的数据中获取的信息不够准确、聚类的质量不佳。
技术实现思路
本专利技术的目的在于提供一种数据聚类的方法及装置,旨在解决聚类结果的好坏对初始聚类中心的依赖性较大,聚类过程易陷入局部最优解、易受“噪音”干扰,导致聚类质量不佳的问题。一方面,本专利技术提供了一 ...
【技术保护点】
一种数据聚类的方法,其特征在于,所述方法包括下述步骤:接收输入的待聚类的数据集,为所述数据集生成对应的当前种群,所述当前种群中每个个体包含预设数目个聚类中心;计算所述当前种群中每个个体的适应度值,并根据所述所有适应度值和所述当前种群的自适应指数,生成所述每个个体的选择概率;根据所述当前种群中每个个体中的所有聚类中心,将所述数据集中的样本划分到相应的聚类中,并根据所述所有选择概率,进化所述当前种群,生成下一代种群;当当前进化代数未超过预设的最大进化代数时,获取所述当前种群进化为所述下一代种群时生成优异个体的数目,并根据所述优异个体数目,计算所述下一代种群的自适应指数,将所述下 ...
【技术特征摘要】
1.一种数据聚类的方法,其特征在于,所述方法包括下述步骤:接收输入的待聚类的数据集,为所述数据集生成对应的当前种群,所述当前种群中每个个体包含预设数目个聚类中心;计算所述当前种群中每个个体的适应度值,并根据所述所有适应度值和所述当前种群的自适应指数,生成所述每个个体的选择概率;根据所述当前种群中每个个体中的所有聚类中心,将所述数据集中的样本划分到相应的聚类中,并根据所述所有选择概率,进化所述当前种群,生成下一代种群;当当前进化代数未超过预设的最大进化代数时,获取所述当前种群进化为所述下一代种群时生成优异个体的数目,并根据所述优异个体数目,计算所述下一代种群的自适应指数,将所述下一代种群设置为所述当前种群,跳转至执行计算所述当前种群中每个个体的适应度值的操作;当所述当前进化代数超过所述最大进化代数时,根据所述下一代种群中的最优个体,生成并输出所述数据集的聚类。2.如权利要求1所述的方法,其特征在于,为所述数据集生成对应的当前种群的步骤,包括:在所述数据集中随机选取所述预设数目个样本点,将所述预设数目个样本点设置为聚类中心;将所述预设数目个聚类中心组合成所述当前种群中的一个个体,重复执行所述随机选取操作,生成所述当前种群中的所有个体。3.如权利要求1所述的方法,其特征在于,计算所述当前种群中每个个体的适应度值,并根据所有适应度值和所述当前种群的自适应指数,生成所述每个个体的选择概率的步骤,包括:根据预设的目标函数,计算所述当前种群中每个个体的适应度值;根据所述所有适应度值,生成所述当前种群中每个个体的优劣等级,并根据所述所有优劣等级和所述当前种群的自适应指数,计算所述当前种群中每个个体的选择概率,所述选择概率的计算公式为:其中,λ(g)为所述当前进化代数为g时所述当前种群的自适应指数,Ri为所述当前种群中第i个个体的优劣等级,NP为所述当前种群中所有个体的总数,Pig为所述当前进化代数为g时所述当前种群中第i个个体的选择概率。4.如权利要求1所述的方法,其特征在于,根据所述所有选择概率,进化所述当前种群,生成下一代种群的步骤,包括:根据所述选择概率,在所述当前种群中选择目标个体进行变异和交叉,生成新个体;将所述新个体的适应度值与所述目标个体的适应度值比较,当所述新个体优于所述目标个体时,将所述新个体设置为所述下一代种群中的个体,并将所述优异个体数目加一,否则将所述目标个体设置为所述下一代种群中的个体。5.如权利要求1所述的方法,其特征在于,根据所述优异个体数目,计算所述下一代种群的自适应指数的步骤,包括:根据所述优异个体数目,计算所述当前种群进化为所述下一代种群时的优异个体比例,所述优异个体比例的计算公式为:其中,SR(g+1)为所述当前进化代数为g时所述当前种群进化生成的优异个体比例,c(g+1)为所述当前进化代数为g时所述当前种群进化生成的优异个体数目;将所述优异个体比例和预设的期望值进行比较,并根据比较结果,计算所述下一代种群的自适应指数;所述期望值为u·SR(g),其中,u为预设参数,SR(g)为所述进化代数为g-1时所述当前种群进化生成的优异个体比例;当所述优异个体比例不小于所述期望值时,所述下一代种群自适应指数的计算公式为λ(g+1)=min(λ(g)+Δ·SR(g+1),λmax),否则所述下一代种群自适应指数的计算公式为λ(g+1)=max(λmin,λ(g)-Δ·(1-SR(g+1))),其中,λmin、λmax、Δ、u为预设参数。6.一种数据聚...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。