一种基于确定性退火的模糊划分聚类方法及装置制造方法及图纸

技术编号:20918400 阅读:25 留言:0更新日期:2019-04-20 10:05
本发明专利技术公开了一种基于确定性退火的模糊划分聚类方法及装置,本发明专利技术采用马氏距离作为相似度度量从而使得聚类算法适用于发现对非球形的簇,用最大熵准则去掉模糊指数m从而使得算法的应用避免选择模糊指数m值,并且用确定性退火机制保证算法在一般情况下均可以得到较好的聚类结果,从而很好的提升了聚类算法的性能。

A Fuzzy Partition Clustering Method and Device Based on Deterministic Annealing

【技术实现步骤摘要】
一种基于确定性退火的模糊划分聚类方法及装置
本专利技术涉及计算机
,特别是涉及一种基于确定性退火的模糊划分聚类方法及装置。
技术介绍
随着网络和多媒体的蓬勃发展,收集到的海量文本信息、图像信息、视频信息、音频信息等等数据使得人工处理这些数据变得越来越难。机器学习研究的崛起使得人们有可能通过机器学习的方式处理这些数据。机器学习研究中,聚类作为一种无监督学习方式,得到了来自各个领域研究者的关注。数据聚类算法在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。在聚类算法的发展历程中,研究工作者们尝试从不同角度来描述聚类问题,并提出了许多基于不同理论、适用于不同应用的聚类算法。近年来,聚类问题受到了学术界的广泛关注,机器学习和数据挖掘领域专家们在IEEETrans.、PatternRecognition、AAAI、ICML等权威杂志及学术会上,对聚类算法进行了深入地探索与研究,从聚类算法从相似度(相异度)计算以及参数选择两方面对提出了不同的聚类算法。通过计算相似度(相异度)可以挖掘出数据的内在结构,为进一步的数据分析提供信息,因此聚类结果直接依赖于相似度(相异度)度量。目前的聚类算法通过对相似度度量方法进行改进,从而使得聚类算法可以适应不同应用场景下的数据分析需求。经典的模糊C均值聚类算法中使用欧氏距离作为相似度(相异度)度量方法,但欧式距离度量方式导致模糊C均值聚类算法只对球形数据的聚类结果较为理想。聚类算法常常可以转换为一个最优化问题,但聚类算法很难得到全局最优解。尤其对于大部分模糊划分聚类算法来说还存在着一个不可忽视的问题:参数选择,例如模糊C均值聚类算法中模糊指数m的选择。对于模糊划分聚类算法而言,样本可以同时属于若干个类,而样本属于某个类的程度由隶属度衡量。模糊指数m用于控制聚类结果的模糊程度,模糊指数m值过大,可能会导致聚类结果过分模糊,甚至得到无信息的聚类结果。实际上,模糊指数m参数值的选择非常困难,在不同应用场景下,甚至针对不同的数据,都需要选择相应的参数值。经典的模糊划分C均值聚类算法使用欧氏距离作为相似度(相异度)度量,该距离计算方法适用于发现球形簇,而不适用于非球形簇的发现。现有的模糊聚类算法通过模糊指数m控制聚类结果的模糊程度,而忽略了不同应用场景下,甚至针对不同的数据需要选择不同的参数值,因此这些聚类算法的性能均受到参数选择的影响。
技术实现思路
本专利技术提供了一种基于确定性退火的模糊划分聚类方法及装置,以解决现有技术中的模糊聚类算法计算不准确的问题。本专利技术第一方面,提供了一种基于确定性退火的模糊划分聚类方法,包括:步骤一、通过计算样本与各聚类中心间的马氏距离,建立相异度矩阵;步骤二、根据相异度矩阵建立加入熵约束后的聚类算法目标函数,所述聚类算法目标函数为:其中,隶属度矩阵U=[uik]c×n∈M,所述熵为通过最大化熵得到限制条件下的样本集最优模糊划分,其中uik∈[0,1],k=1,…,n,i=1,…,c,n为样本个数,c为类个数,参数β为预设值;步骤三、优化聚类算法的目标函数得到隶属度及聚类中心的迭代更新公式,通过迭代更新过程,得到样本的模糊划分结果,所述迭代更新公式为:其中,s为样本维度。优选地,所述步骤一具体包括:样本和聚类中心间的相异度计算公式为:其中,X={x1,x2,…,xn}代表样本数量为n、样本维度为s的数据集,数据集中的每个样本,均由一个s维特征向量表示,聚类的目标是将这n个数据点分为c类,用V={v1,v2,…,vc}表示类中心。优选地,所述预设参数β在预定的范围内变动。优选地,预设参数β在预定的范围内变动,包括:所述预设参数β在预定范围内以β的预定倍数进行变动。本专利技术第二方面,提供了一种基于确定性退火的模糊划分聚类装置,包括:第一处理单元,用于通过计算样本与各聚类中心间的马氏距离,建立相异度矩阵;第二处理单元,用于根据相异度矩阵建立加入熵约束后的聚类算法目标函数,所述聚类算法目标函数为:其中,隶属度矩阵U=[uik]c×n∈M,所述熵为通过最大化熵得到限制条件下的样本集最优模糊划分,其中uik∈[0,1],k=1,…,n,i=1,…,c,n为样本个数,c为类个数,参数β为预设值;第三处理单元,用于优化聚类算法的目标函数得到隶属度及聚类中心的迭代更新公式,通过迭代更新过程,得到样本的模糊划分结果,所述迭代更新公式为:其中,s为样本维度。优选地,所述第一处理单元具体用于,样本和聚类中心间的相异度计算公式为:其中,X={x1,x2,…,xn}代表样本数量为n、样本维度为s的数据集,数据集中的每个样本,均由一个s维特征向量表示,聚类的目标是将这n个数据点分为c类,用V={v1,v2,…,vc}表示类中心。优选地,所述预设参数β在预定的范围内变动。优选地,所述预设参数β在预定范围内以β的预定倍数进行变动。本专利技术第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任一种所述的基于确定性退火的模糊划分聚类方法。本专利技术有益效果如下:本专利技术提出了一种基于确定性退火机制的模糊划分聚类算法,采用马氏距离作为相似度度量从而使得聚类算法适用于发现对非球形的簇,用最大熵准则去掉模糊指数m从而使得算法的应用避免选择模糊指数m值,并且用确定性退火机制保证算法在一般情况下均可以得到较好的聚类结果,从而很好的提升了聚类算法的性能。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术实施例的一种基于确定性退火的模糊划分聚类方法的流程示意图;图2是本专利技术实施例的一种基于确定性退火的模糊划分聚类方法的框架图;图3是本专利技术实施例的一种基于确定性退火的模糊划分聚类装的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术第一实施例提供了一种基于确定性退火的模糊划分聚类方法,参见图1,该方法包括:步骤一、通过计算样本与各聚类中心间的马氏距离,建立相异度矩阵;本专利技术实施例中,所述的样本为各类数据转换后得到特征向量,所述数据包括图片数据、文本数据等等,所述数据可以是从网络上获取的各种网络数据,也可以是本机存储的各种数据。步骤二、根据相异度矩阵建立加入熵约束后的聚类算法目标函数,所述聚类算法目标函数为:其中,隶属度矩阵U=[uik]c×n∈M,所述熵为通过最大化熵得到限制条件下的样本集最优模糊划分,其中uik∈[0,1],k=1,…,n,i=1,…,c,n为样本个数,c为类个数,参数β为预设值;步本文档来自技高网
...

【技术保护点】
1.一种基于确定性退火的模糊划分聚类方法,其特征在于,包括:步骤一、通过计算样本与各聚类中心间的马氏距离,建立相异度矩阵;步骤二、根据相异度矩阵建立加入熵约束后的聚类算法目标函数,所述聚类算法目标函数为:

【技术特征摘要】
1.一种基于确定性退火的模糊划分聚类方法,其特征在于,包括:步骤一、通过计算样本与各聚类中心间的马氏距离,建立相异度矩阵;步骤二、根据相异度矩阵建立加入熵约束后的聚类算法目标函数,所述聚类算法目标函数为:其中,隶属度矩阵U=[uik]c×n∈M,所述熵为通过最大化熵得到限制条件下的样本集最优模糊划分,其中uik∈[0,1],k=1,…,n,i=1,…,c,n为样本个数,c为类个数,参数β为预设值;步骤三、优化聚类算法的目标函数得到隶属度及聚类中心的迭代更新公式,通过迭代更新过程,得到样本的模糊划分结果,所述迭代更新公式为:其中,s为样本维度。2.根据权利要求1所述的方法,其特征在于,所述步骤一具体包括:样本和聚类中心间的相异度计算公式为:其中,X={x1,x2,…,xn}代表样本数量为n、样本维度为s的数据集,数据集中的每个样本,均由一个s维特征向量表示,聚类的目标是将这n个数据点分为c类,用V={v1,v2,…,vc}表示类中心。3.根据权利要求1所述的方法,其特征在于,还包括:预设参数β在预定的范围内变动。4.根据权利要求3所述的方法,其特征在于,预设参数β在预定的范围内变动,包括:所述预设参数β在预定范围内以β的预定倍数进行变动。5.一种基于确定性退火的模糊划分聚类装置,其特征在于,包括:第一处理单元,用于通过计算样本与各聚...

【专利技术属性】
技术研发人员:超木日力格张博杨云祥郭静吉祥张雪莹唐先超
申请(专利权)人:中国电子科技集团公司电子科学研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1