The invention discloses a method and a system for improving the selection of initial clustering centers. The implementation process is as follows: firstly, acquiring a data set containing several data objects; selecting the smallest data object; calculating the Pearson correlation coefficient between all data objects and the smallest data object; and according to the acquired Pearson phase. Relational number, in descending order from large to small, arranges all data objects; grouping data objects to obtain the initial center point; clustering according to the selected initial center point, recalculates the mean of each cluster, and replaces the original center point with a new mean to complete the clustering. Compared with the existing technology, the improved method and system can determine the initial cluster center by Pearson correlation, which can avoid the randomness of the initial cluster center selection, improve the clustering accuracy, practicability, wide range of application and easy to popularize.
【技术实现步骤摘要】
一种改进初始聚类中心选择的方法及系统
本专利技术涉及计算机数据挖掘
,具体地说是一种实用性强、改进初始聚类中心选择的方法及系统。
技术介绍
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。聚类在地球观测数据库中相似地区的确定,汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。聚类也能用于对Web上的文档进行分类,以发现信息。现有技术中,最常用的聚类算法就是均值算法k-means算法,该算法是数据挖掘技术中基于划分方法的一个经典的聚类算法,因为该算法的理论可靠、算法简单、收敛迅速而被广泛应用。但是,k均值算法对初始聚类中心点的选取非常敏感,不好的初始中心点的选取会导致聚类结果不稳定,导致聚类准确性较差。此外,目前的聚类过程需要重新输入数据,采用外部聚类器实现,这样就会导致聚类时间过长,工作效率较低。基于此,本专利技术提出一种解决上述问题、改进初始聚类中心选择的方法及系统。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、改进初始聚类中心选择的方法及系统。一种改进初始聚类中心选择的方法,其实现过程为,步骤一、首先获取数据集,该数据集中含有若干数据对象;步骤二、选择最小的数据对象;步骤三、 ...
【技术保护点】
1.一种改进初始聚类中心选择的方法,其特征在于,其实现过程为,一、首先获取数据集,该数据集中含有若干数据对象;二、选择最小的数据对象;三、计算所有数据对象与最小数据对象之间的皮尔森相关系数;四、根据获取的皮尔森相关系数,按照从大到小的顺序降序排列所有数据对象;五、将数据对象进行分组,获取初始中心点;六、根据选好的初始中心点进行聚类,重新计算每一个聚类的均值,并用新的均值替换原来的中心点,完成聚类。
【技术特征摘要】
1.一种改进初始聚类中心选择的方法,其特征在于,其实现过程为,一、首先获取数据集,该数据集中含有若干数据对象;二、选择最小的数据对象;三、计算所有数据对象与最小数据对象之间的皮尔森相关系数;四、根据获取的皮尔森相关系数,按照从大到小的顺序降序排列所有数据对象;五、将数据对象进行分组,获取初始中心点;六、根据选好的初始中心点进行聚类,重新计算每一个聚类的均值,并用新的均值替换原来的中心点,完成聚类。2.根据权利要求1所述的一种改进初始聚类中心选择的方法,其特征在于,所述步骤一中的数据集获取包括采集数据对象、数据对象清洗、数据对象处理,其中采集数据对象是指采集各种被测对象的数据参数;数据对象清洗是指对采集的数据对象进行包括填充缺失数据、消除噪声数据的步骤,提高数据集的质量;数据对象处理是指对数据进行包括存储、检索、加工、变换和传输的过程。3.根据权利要求1所述的一种改进初始聚类中心选择的方法,其特征在于,所述步骤三中的皮尔森相关系数计算公式如下:其中分子是协方差cov(X,Y),分母是两个变量标准差的乘积;r表示皮尔森相关性;X表示在数据集中选出的最小数据对象min(D);Yi表示数据集中除最小数据对象外的其它数据对象;E表示X和Yi的期望值,即“X数据对象与其均值之差”乘以“Yi数据对象与其均值之差”得到一个乘积,再对这个乘积求和并求出均值;σ表示的是标准差,是计算两数据对象之间的离均差平方的算术平均数的平方根;μ表示数据对象的均值;i表示第i个数据对象,i的取值是1≤i≤m,m为样本数据对象总数。4.根据权利要求1所述的一种改进初始聚类中心选择的方法,其特征在于,所述步骤五中,数据对象进行分组过程如下:根据步骤四中的排序以的长度来进行分组,其中m为数据对象总数;k为聚类总数,即步骤六中进行聚类时,根据选取好的初始中心点,将每一个样本聚类到离自己最近的k个样本之一;获取初始中心点的过程如下:根据分组情况利用公式计算初始中心点,即计算簇Ci的初始中心点ci,具体公式为,i表示数据对象,1≤i≤m;ci表示初始中心点数据对象;C表示聚类的簇,Ci表示第i簇;bj表示属于簇Ci数据对象,其中1≤j≤n;n表示簇内数据的项数。5.根据权利要求1所述的一种改进初始聚类中心选择的方法,其特征在于,所述步骤六中的聚类过程如下:第一步、根据选取好的初始中心点,将每一个样本聚类到离自己最近的k个样本之一;第二步、计算每一个聚类的均值,并用新的均值替换原来的聚类中心;第三步、判断聚类中心是否改变,如改变就返回第二步,否就结束本算法,得到聚类结果。6.一种改...
【专利技术属性】
技术研发人员:姜合,谢青青,李会娟,韩冰,王东远,
申请(专利权)人:齐鲁工业大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。