一种改进初始聚类中心选择的方法及系统技术方案

技术编号:19009148 阅读:17 留言:0更新日期:2018-09-22 09:01
本发明专利技术公开了一种改进初始聚类中心选择的方法及系统,其实现过程为,首先获取数据集,该数据集中含有若干数据对象;选择最小的数据对象;计算所有数据对象与最小数据对象之间的皮尔森相关系数;根据获取的皮尔森相关系数,按照从大到小的顺序降序排列所有数据对象;将数据对象进行分组,获取初始中心点;根据选好的初始中心点进行聚类,重新计算每一个聚类的均值,并用新的均值替换原来的中心点,完成聚类。该改进初始聚类中心选择的方法及系统与现有技术相比,能够通过皮尔森相关性来确定聚类初始中心点的方法,来避免初始中心点选择的随机性问题,提高聚类准确性,实用性强,适用范围广泛,易于推广。

A method and system for improving initial cluster center selection

The invention discloses a method and a system for improving the selection of initial clustering centers. The implementation process is as follows: firstly, acquiring a data set containing several data objects; selecting the smallest data object; calculating the Pearson correlation coefficient between all data objects and the smallest data object; and according to the acquired Pearson phase. Relational number, in descending order from large to small, arranges all data objects; grouping data objects to obtain the initial center point; clustering according to the selected initial center point, recalculates the mean of each cluster, and replaces the original center point with a new mean to complete the clustering. Compared with the existing technology, the improved method and system can determine the initial cluster center by Pearson correlation, which can avoid the randomness of the initial cluster center selection, improve the clustering accuracy, practicability, wide range of application and easy to popularize.

【技术实现步骤摘要】
一种改进初始聚类中心选择的方法及系统
本专利技术涉及计算机数据挖掘
,具体地说是一种实用性强、改进初始聚类中心选择的方法及系统。
技术介绍
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。聚类在地球观测数据库中相似地区的确定,汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。聚类也能用于对Web上的文档进行分类,以发现信息。现有技术中,最常用的聚类算法就是均值算法k-means算法,该算法是数据挖掘技术中基于划分方法的一个经典的聚类算法,因为该算法的理论可靠、算法简单、收敛迅速而被广泛应用。但是,k均值算法对初始聚类中心点的选取非常敏感,不好的初始中心点的选取会导致聚类结果不稳定,导致聚类准确性较差。此外,目前的聚类过程需要重新输入数据,采用外部聚类器实现,这样就会导致聚类时间过长,工作效率较低。基于此,本专利技术提出一种解决上述问题、改进初始聚类中心选择的方法及系统。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、改进初始聚类中心选择的方法及系统。一种改进初始聚类中心选择的方法,其实现过程为,步骤一、首先获取数据集,该数据集中含有若干数据对象;步骤二、选择最小的数据对象;步骤三、计算所有数据对象与最小数据对象之间的皮尔森相关系数;步骤四、根据获取的皮尔森相关系数,按照从大到小的顺序降序排列所有数据对象;步骤五、将数据对象进行分组,获取初始中心点;步骤六、根据选好的初始中心点进行聚类,重新计算每一个聚类的均值,并用新的均值替换原来的中心点,完成聚类。所述步骤一中的数据集获取包括采集数据对象、数据对象清洗、数据对象处理,其中采集数据对象是指采集各种被测对象的数据参数;数据对象清洗是指对采集的数据对象进行包括填充缺失数据、消除噪声数据的步骤,提高数据集的质量;数据对象处理是指对数据进行包括存储、检索、加工、变换和传输的过程。所述步骤三中的皮尔森相关系数计算公式如下:其中分子是协方差cov(X,Y),分母是两个变量标准差的乘积;r表示皮尔森相关性;X表示在数据集中选出的最小数据对象min(D);Yi表示数据集中除最小数据对象外的其它数据对象;E表示X和Yi的期望值,即“X数据对象与其均值之差”乘以“Yi数据对象与其均值之差”得到一个乘积,再对这个乘积求和并求出均值;σ表示的是标准差,是计算两数据对象之间的离均差平方的算术平均数的平方根;μ表示数据对象的均值;i表示第i个数据对象,i的取值是1≤i≤m,m为样本数据对象总数。所述步骤五中,数据对象进行分组过程如下:根据步骤四中的排序以的长度来进行分组,其中m为数据对象总数;k为聚类总数,即步骤六中进行聚类时,根据选取好的初始中心点,将每一个样本聚类到离自己最近的k个样本之一;获取初始中心点的过程如下:根据分组情况利用公式计算初始中心点,即计算簇Ci的初始中心点ci,具体公式为,i表示数据对象,1≤i≤m;ci表示初始中心点数据对象;C表示聚类的簇,Ci表示第i簇;bj表示属于簇Ci数据对象,其中1≤j≤n;n表示簇内数据的项数。所述步骤六中的聚类过程如下:第一步、根据选取好的初始中心点,将每一个样本聚类到离自己最近的k个样本之一;第二步、计算每一个聚类的均值,并用新的均值替换原来的聚类中心;第三步、判断聚类中心是否改变,如改变就返回第二步,否就结束本算法,得到聚类结果。一种改进初始聚类中心选择的系统,包括,数据获取模块,用于获取含有若干数据对象的数据集;数据计算模块,通过选择最小的数据对象,计算其它的所有数据对象与最小数据对象之间的皮尔森相关系数;自动排序模块,用于根据获取的皮尔森相关系数,按照从大到小的顺序降序排列所有数据对象;数据分组模块,根据自动排序模块中的分组,通过均值计算获取初始中心点;聚类模块,用于根据选好的初始中心点进行聚类,重新计算每一个聚类的均值,并用新的均值替换原来的中心点,完成聚类。所述数据获取模块中配置有采集单元、清洗单元、处理单元,其中采集单元用于采集各种被测对象的数据参数;清洗单元用于对采集的数据对象进行包括填充缺失数据、消除噪声数据的步骤,提高数据集的质量;处理单元用于对数据进行包括存储、检索、加工、变换和传输的过程。所述数据计算模块通过以下公式计算皮尔森相关系数:其中分子是协方差cov(X,Y),分母是两个变量标准差的乘积;r表示皮尔森相关性;X表示在数据集中选出的最小数据对象min(D);Yi表示数据集中除最小数据对象外的其它数据对象;E表示X和Yi的期望值,即“X数据对象与其均值之差”乘以“Yi数据对象与其均值之差”得到一个乘积,再对这个乘积求和并求出均值;σ表示的是标准差,是计算两数据对象之间的离均差平方的算术平均数的平方根;μ表示数据对象的均值;i表示第i个数据对象,i的取值是1≤i≤m,m为样本数据对象总数。所述数据分组模块中,数据对象进行分组过程如下:自动排序模块给出的排序以的长度来进行分组,其中m为数据对象总数;k为聚类总数,即聚类模块进行聚类时,根据选取好的初始中心点,将每一个样本聚类到离自己最近的k个样本之一;获取初始中心点的过程为:根据分组情况利用公式计算初始中心点,即计算簇Ci的初始中心点ci,具体公式为,i表示数据对象,1≤i≤m;ci表示初始中心点数据对象;C表示聚类的簇,Ci表示第i簇;bj表示属于簇Ci数据对象,其中1≤j≤n;n表示簇内数据的项数。所述聚类模块进行聚类的过程为:根据选取好的初始中心点,将每一个样本聚类到离自己最近的k个样本之一;计算每一个聚类的均值,并用新的均值替换原来的聚类中心;判断聚类中心是否改变,如改变就返回上一步,否就结束,得到聚类结果。本专利技术的一种改进初始聚类中心选择的方法及系统,具有以下优点:本专利技术提出的一种改进初始聚类中心选择的方法及系统,能够通过皮尔森相关性来确定聚类初始中心点的方法,来避免初始中心点选择的随机性问题,提高聚类准确性,该方法能够通过内置的聚类模块对采集到的数据对象进行聚类以获得数据的聚类结果,从而无需重新输入数据,避免了外部聚类器带来的时间问题,提高了工作效率,实用性强,适用范围广泛,易于推广。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。附图1是本专利技术一实施例的数据采集程序的主框图。附图2是本专利技术一实施例的数据清洗主框图。附图3是本专利技术一实施例的初始中心点选取流程图。附图4是本专利技术一实施例的聚类分析算法流程图附图5是本专利技术一实施例的系统示意框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面结合具体实施方式对本专利技术作进一步的详细说明。显然,所描述本文档来自技高网
...
一种改进初始聚类中心选择的方法及系统

【技术保护点】
1.一种改进初始聚类中心选择的方法,其特征在于,其实现过程为,一、首先获取数据集,该数据集中含有若干数据对象;二、选择最小的数据对象;三、计算所有数据对象与最小数据对象之间的皮尔森相关系数;四、根据获取的皮尔森相关系数,按照从大到小的顺序降序排列所有数据对象;五、将数据对象进行分组,获取初始中心点;六、根据选好的初始中心点进行聚类,重新计算每一个聚类的均值,并用新的均值替换原来的中心点,完成聚类。

【技术特征摘要】
1.一种改进初始聚类中心选择的方法,其特征在于,其实现过程为,一、首先获取数据集,该数据集中含有若干数据对象;二、选择最小的数据对象;三、计算所有数据对象与最小数据对象之间的皮尔森相关系数;四、根据获取的皮尔森相关系数,按照从大到小的顺序降序排列所有数据对象;五、将数据对象进行分组,获取初始中心点;六、根据选好的初始中心点进行聚类,重新计算每一个聚类的均值,并用新的均值替换原来的中心点,完成聚类。2.根据权利要求1所述的一种改进初始聚类中心选择的方法,其特征在于,所述步骤一中的数据集获取包括采集数据对象、数据对象清洗、数据对象处理,其中采集数据对象是指采集各种被测对象的数据参数;数据对象清洗是指对采集的数据对象进行包括填充缺失数据、消除噪声数据的步骤,提高数据集的质量;数据对象处理是指对数据进行包括存储、检索、加工、变换和传输的过程。3.根据权利要求1所述的一种改进初始聚类中心选择的方法,其特征在于,所述步骤三中的皮尔森相关系数计算公式如下:其中分子是协方差cov(X,Y),分母是两个变量标准差的乘积;r表示皮尔森相关性;X表示在数据集中选出的最小数据对象min(D);Yi表示数据集中除最小数据对象外的其它数据对象;E表示X和Yi的期望值,即“X数据对象与其均值之差”乘以“Yi数据对象与其均值之差”得到一个乘积,再对这个乘积求和并求出均值;σ表示的是标准差,是计算两数据对象之间的离均差平方的算术平均数的平方根;μ表示数据对象的均值;i表示第i个数据对象,i的取值是1≤i≤m,m为样本数据对象总数。4.根据权利要求1所述的一种改进初始聚类中心选择的方法,其特征在于,所述步骤五中,数据对象进行分组过程如下:根据步骤四中的排序以的长度来进行分组,其中m为数据对象总数;k为聚类总数,即步骤六中进行聚类时,根据选取好的初始中心点,将每一个样本聚类到离自己最近的k个样本之一;获取初始中心点的过程如下:根据分组情况利用公式计算初始中心点,即计算簇Ci的初始中心点ci,具体公式为,i表示数据对象,1≤i≤m;ci表示初始中心点数据对象;C表示聚类的簇,Ci表示第i簇;bj表示属于簇Ci数据对象,其中1≤j≤n;n表示簇内数据的项数。5.根据权利要求1所述的一种改进初始聚类中心选择的方法,其特征在于,所述步骤六中的聚类过程如下:第一步、根据选取好的初始中心点,将每一个样本聚类到离自己最近的k个样本之一;第二步、计算每一个聚类的均值,并用新的均值替换原来的聚类中心;第三步、判断聚类中心是否改变,如改变就返回第二步,否就结束本算法,得到聚类结果。6.一种改...

【专利技术属性】
技术研发人员:姜合谢青青李会娟韩冰王东远
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1