一种基于多属性决策的最优聚类算法选择方法和装置制造方法及图纸

技术编号:21061012 阅读:23 留言:0更新日期:2019-05-08 07:26
本发明专利技术公开了一种基于多属性决策的最优聚类算法选择方法和装置,该方法包括以下步骤:采用多个待选择聚类算法,分别对数据集进行聚类;采用聚类有效性评估方法分别对每个待选择聚类算法的聚类结果进行评价,基于评价结果构建决策矩阵;计算决策矩阵各列的权重值;采用MSM相关算子处理决策矩阵,得到每个待选择聚类算法的最终评价值;根据每个待选择聚类算法的最终评价值,从多个待选择聚类算法中选择出最优的聚类算法。该方法建立聚类算法选择框架可以有效地解决基于经验的聚类算法可能无法获得良好的聚类结果的问题,选择了几种不同的评价方法并结合其处理结果,来验证聚类结果,使得选择的算法更准确。

An Optimal Clustering Algorithms Selection Method and Device Based on Multi-attribute Decision Making

【技术实现步骤摘要】
一种基于多属性决策的最优聚类算法选择方法和装置
本公开涉及一种基于多属性决策的最优聚类算法选择方法和装置。
技术介绍
随着社会的快速发展,许多行业产生了大量的数据,人工智能和数据挖掘等各种信息技术已经在很多方面得到应用。聚类是一种常用的数据挖掘方法,可以识别数据中潜在的相关联的分布和模式。聚类是一种无监督的数据处理方法,没有先验数据,因此它完全取决于数据之间的相似性。由于聚类的无监督性质,如何测量算法的性能和正确性至关重要。此外,没有免费的午餐定理曾经指出,最佳方法或模型的普遍性并不存在。一些聚类算法可能适用于凸结构,但不适用于环簇结构,例如K均值算法。一些常用的算法有:DBSCAN算法,k-means算法,COBWEB,Fuzzyc-means,Farthestfirst和EM。如果对数据的先验知识较少,则无法确定使用哪种算法,如果随机选择聚类算法,最终聚类结果可能是很模糊的。目前,算法评价越来越受到重视,现有文献中指出可以对不同类型的聚类算法进行排序,然后可以选择最优算法。G.Wang将决策方法应用于数据挖掘,研究了聚类的模型选择问题,提出了一种新的选择方法。Y.Zhang利用聚类有效性来评估处理算法的结果并选择最优参数,然后引入多目标决策进行排序算法,同时选择最优算法。2015年,W.Wu提出了基于多目标决策的数据挖掘模型评估理论框架。MSM算子最初由C.Maclaurin提出。在聚类分析中,处理不同数据类型时的算法不一样,因此也存在着各种类型的算法。由于几乎没有聚类的先验知识,仅基于经验的聚类算法可能无法获得良好的聚类结果。因此,如何选择最优的聚类算法,得到良好的聚类结果,尚缺乏有效的解决方案。
技术实现思路
为了克服上述现有技术的不足,本公开提供了一种基于多属性决策的最优聚类算法选择方法和装置,建立聚类算法选择框架可以有效地解决基于经验的聚类算法可能无法获得良好的聚类结果的问题,选择了几种不同的评价方法并结合其处理结果,来验证聚类结果,使得选择的算法更准确。本公开所采用的技术方案是:一种基于多属性决策的最优聚类算法选择方法,该方法包括以下步骤:采用多个待选择聚类算法,分别对数据集进行聚类;采用聚类有效性评估方法分别对每个待选择聚类算法的聚类结果进行评价,基于评价结果构建决策矩阵;计算决策矩阵各列的权重值;采用MSM相关算子处理决策矩阵,得到每个待选择聚类算法的最终评价值;根据每个待选择聚类算法的最终评价值,从多个待选择聚类算法中选择出最优的聚类算法。进一步的,所述采用多个待选择的聚类算法,分别对数据集进行聚类的步骤包括:获取原始数据,判断原始数据是否有类标签,若有,则选择相似数据集作为训练数据集,若没有,则选择原始数据的部分数据作为训练数据集;利用多个待选择的聚类算法分别对对训练数据集进行聚类,得到每个待选择聚类算法的聚类结果。进一步的,所述决策矩阵的构建方法为:计算每个待选择聚类算法的聚类结果的聚类有效性评价指标,所述聚类有效性评价指标包括纯度、兰德指数、统计量、相似度和频率;基于所有待选择聚类算法的聚类有效性评价指标;基于所有聚类算法的聚类有效性评价指标建立多个列向量,组成决策矩阵。进一步的,所述决策矩阵各列的权重值的计算公式为:进一步的,所述采用MSM相关算子处理决策矩阵的步骤包括:基于决策矩阵各列权重值,计算WMSM算子和GWMSM算子;根据WMSM算子和GWMSM算子,计算所选择的每个聚类算法的最终评价值。进一步的,所述选择出最优的聚类算法的方法为:按照得到的每个待选择聚类算法的最终评价值大小,对所有待选择聚类算法进行排序,得到待选择聚类算法的优先级;根据所选择的聚类算法的优先级,从多个待选择聚类算法中选择最终评价值最大的聚类算法作为最优的聚类算法。进一步的,还包括:选择出最优聚类算法的最优K值。进一步的,所述最优聚类算法的最优K值的选择方法为:选择多个不同K值的最优聚类算法,分别对数据集进行聚类,得到每个K值的聚类结果;计算每个K值的聚类结果的聚类有效性评价指标,基于所有K值的聚类结果的聚类有效性评价指标,建立决策矩阵;计算决策矩阵各列权重值;基于决策矩阵的各列权重值,计算WMSM算子和GWMSM算子;根据WMSM算子和GWMSM算子,计算每个K值的最终评价值;根据每个K值的最终评价值的大小,选择最终评价值最大的K值作为最优聚类算法的最优K值。一种最优聚类算法选择装置,该装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的最优聚类算法选择方法。通过上述技术方案,本公开的有益效果是:(1)本公开选择多个不同的有效性评级指标对聚类算法的聚类结果进行评价,使得选择的算法将更准确,还选择多个不同聚类有效性评价指标对不同聚类算法的聚类结果进行评价,通过处理评价值找出最优聚类划分数目,该方法可以作为非均匀性数据集选择相应的优化算法;(2)本公开采用MSM算子和基于最大偏差的权重计算方法对聚类结果进行计算,根据评价结果找出最优聚类算法;并采用聚类有效性评价方法对不同K值的最优聚类算法进行评估,建立决策矩阵,并选择多个不同聚类有效性评价指标对取不同K值时的聚类结果进行评价,得到最优的K值,在聚类算法中K值的选择上有很高的准确度。附图说明构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本申请,并不构成对本公开的不当限定。图1是最优聚类算法选择方法的流程图;图2是最优聚类算法选择方法的实验结果示意图。具体实施方式下面结合附图与实施例对本公开作进一步说明。应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本公开使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。名词解释:(1)DBSCAN算法,Density-BasedSpatialClusteringofApplicationswithNoise,是一个基于高密度连接区域的密度聚类方法,通过检查数据库中每个点的ε-邻域来寻找聚类。(2)k-means算法,是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。(3)COBWEB算法,是一种流行的简单增量概念聚类算法,它的输入对象用分类属性-值对来描述,以一个分类树的形式创建层次聚类。(4)Fuzzyc-means算法,是基于对目标函数的优化基础上的一种数据聚类方法,聚类结果是每一个数据点对聚类中心的隶属程度,该隶属程度用一个数值来表示。(5)Farthestfirst算法,是快速的近似的k均值聚类算法。(6)EM算法,ExpectationMaximizationAlgorithm,是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个本文档来自技高网
...

【技术保护点】
1.一种基于多属性决策的最优聚类算法选择方法,其特征是,该方法包括以下步骤:采用多个待选择聚类算法,分别对数据集进行聚类;采用聚类有效性评估方法分别对每个待选择聚类算法的聚类结果进行评价,基于评价结果构建决策矩阵;计算决策矩阵各列的权重值;采用MSM相关算子处理决策矩阵,得到每个待选择聚类算法的最终评价值;根据每个待选择聚类算法的最终评价值,从多个待选择聚类算法中选择出最优的聚类算法。

【技术特征摘要】
1.一种基于多属性决策的最优聚类算法选择方法,其特征是,该方法包括以下步骤:采用多个待选择聚类算法,分别对数据集进行聚类;采用聚类有效性评估方法分别对每个待选择聚类算法的聚类结果进行评价,基于评价结果构建决策矩阵;计算决策矩阵各列的权重值;采用MSM相关算子处理决策矩阵,得到每个待选择聚类算法的最终评价值;根据每个待选择聚类算法的最终评价值,从多个待选择聚类算法中选择出最优的聚类算法。2.根据权利要求1所述的基于多属性决策的最优聚类算法选择方法,其特征是,所述采用多个待选择的聚类算法,分别对数据集进行聚类的步骤包括:获取原始数据,判断原始数据是否有类标签,若有,则选择相似数据集作为训练数据集,若没有,则选择原始数据的部分数据作为训练数据集;利用多个待选择的聚类算法分别对对训练数据集进行聚类,得到每个待选择聚类算法的聚类结果。3.根据权利要求1所述的基于多属性决策的最优聚类算法选择方法,其特征是,所述决策矩阵的构建方法为:计算每个待选择聚类算法的聚类结果的聚类有效性评价指标,所述聚类有效性评价指标包括纯度、兰德指数、统计量、相似度和频率;基于所有待选择聚类算法的聚类有效性评价指标;基于所有聚类算法的聚类有效性评价指标建立多个列向量,组成决策矩阵。4.根据权利要求1所述的基于多属性决策的最优聚类算法选择方法,其特征是,所述决策矩阵各列的权重值的计算公式为:其中,d(rij,rlj)是第i行j列数据与其它数据的偏差,m为列数。5.根据权利要求1所述的基于多属性决策的最优聚类算法选择方法,其特...

【专利技术属性】
技术研发人员:耿玉水李雪梅孙涛姜雪松于坤杨梦洁
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1