The invention provides a search method of improved k_means algorithm based on semantics, preprocesses the data set, obtains the initial clustering number k, the clustering data set D, and the initial clustering center set C: C1, C2, C3. C and Cs are used as inputs; the samples in the data set are assigned to the nearest cluster; the centroid points of each cluster are calculated, and the change of the centroid points is judged to satisfy the set conditions. If it is satisfied, it is added to the feature set and deleted from the data set; if the data set samples are not empty, the number of centroid points is traversed and the data set is empty-time. Bundle and get clustering information. By using six common data sets provided by UCI database, the simulation results show that the search method of the improved k_means algorithm based on semantics has reduced the data iteration time and improved the clustering accuracy compared with the existing technology.
【技术实现步骤摘要】
基于语义的改进的k-means算法的搜索方法
本专利技术涉及一种基于语义的改进的k-means算法的搜索方法,属于数据挖掘中的聚类搜索领域。
技术介绍
现在由于越来越多的数量庞大的文件和内容存储在网络上,搜索相关内容的问题随之增加。获取相应内容和检索相应信息的能力依然成为一个大问题。检索系统缺乏效率的检索方法仍然是检索的主要问题。主要原因在于网络中的内容能被人类所理解,但被机器处理则会遇到处理信息不准备,效率不高等问题。传统的检索系统是基于关键字的搜索,在涉及用户需求和内容意义方面的检索能力有限,无法描述搜索词之间的关系。潜在语义索引对于自动生成的文档,利用统计关系来确定语义相关内容。使用潜在语义索引,查询与结果之间的匹配程度,在统计学方法上的排名比较高。k-means算法是聚类分析最常用的方法之一,最早由MacQueen提出,该算法的精妙之处在于简单、效率高且宜于处理大规模的数据,已经被应用到众多领域,包括:自然语言处理、天文、海洋、土壤等。以下说明传统的k-means及k-means++聚类算法的缺陷。k-means算法是一个在数据挖掘领域有很大影响力的聚类算法,对于许多领域,比如学校,不同学生群体每日的消费,转账,课程安排等,存在大量数据信息,可以利用k-means算法对大量数据进行处理,便于学校对学生的各个方面进行良好管理。然而传统的k-means算法对初始聚类中心的敏感性相对较高,聚类结果过度依赖于初始中心。K-means算法对初始聚类中心非常敏感,初始聚类中心不同将会使得聚类结果有很大的不同。如果数据中存在异常值,则初始聚类中心的计算会受到影响 ...
【技术保护点】
1.一种基于语义的改进的k‑means算法的搜索方法,其特征在于:包括以下步骤,S1、对数据集进行预处理,得到初始聚类数量k、聚类数据集D,其中聚类数据集D={d1,d2,...,di,...,dn},其中聚类数据集数量为n,与初始聚类中心集合C={C1,C2,...,Ci,...,Cs},其中初始聚类中心数量为s,作为输入;S2、将数据集中的样本根据公式(1)计算需要聚类的数据集D与预处理后的初始聚类中心的欧几里何距离,其中di是数据集样本,Ci是由预处理得到的初始聚类中心,根据计算结果,将数据样本分配到由预处理得到的作为入参的初始聚类中心最近的簇中;其中公式(1)为:
【技术特征摘要】
1.一种基于语义的改进的k-means算法的搜索方法,其特征在于:包括以下步骤,S1、对数据集进行预处理,得到初始聚类数量k、聚类数据集D,其中聚类数据集D={d1,d2,...,di,...,dn},其中聚类数据集数量为n,与初始聚类中心集合C={C1,C2,...,Ci,...,Cs},其中初始聚类中心数量为s,作为输入;S2、将数据集中的样本根据公式(1)计算需要聚类的数据集D与预处理后的初始聚类中心的欧几里何距离,其中di是数据集样本,Ci是由预处理得到的初始聚类中心,根据计算结果,将数据样本分配到由预处理得到的作为入参的初始聚类中心最近的簇中;其中公式(1)为:其中did、Cid分别为二维坐标下数据集样本di与初始聚类中心Ci的坐标,n为聚类数据集的数量;S3、根据公式(2):其中|Ci|是初始聚类中心Ci中数据对象的个数,计算聚类的每个类的质心点,同时设定初始聚类中心点的改变量α1=0,并根据公式(3)判断聚类质心点的改变量x(Ci)是否满足小于初始设定的条件α1,若满足则将其加入特征集中,同时,将其中数据集中删除;其中公式(3)为:其中,r为算法的迭代次数,Cr,i代表第r次的算法迭代的第i个初始聚类中心;αr代表第r次算法迭代时的聚类中心点的改变量,di与Ci分别指代聚类数据集D中的第i个元素与初始聚类中心集合C中的第i个初始聚类中心;S4、设n为聚类数据空间中所有的数据点的个数,k为输入的初始聚类数量,若数据集样本不为空,遍历中心点个数n,若n小于k,则进入步骤S2,直到n等于k时,进入步骤S5;数据集为空时,进入步骤S6;S5、更新中心点,计算每个聚类中心点的改变量大于设定值的簇的质心,并将其作为新的聚类中心,并回到步骤S2;S6、结束,得到最终聚类结果簇。2.如权利要求1...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。